Eurovlm 9B Preview
Apache-2.0
EuroVLM-9B-Previewは、EuroLLM-9Bの長文脈バージョンに基づくマルチモーダルビジュアル言語モデルで、複数の言語とビジュアルタスクをサポートし、現在はプレビューバージョンです。
画像生成テキスト
Transformers 複数言語対応

E
utter-project
156
2
Janus Pro 7B
MIT
Janus-Proは革新的な自己回帰型フレームワークで、マルチモーダル理解と生成機能を統合しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャで処理することで、視覚エンコーダが理解と生成の役割間で生じる衝突を解決しました。
テキスト生成画像
Transformers

J
deepseek-ai
139.64k
3,355
Paligemma2 28b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。
画像生成テキスト
Transformers

P
google
116
48
Paligemma2 28b Mix 448
PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能
画像生成テキスト
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。
画像生成テキスト
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト
Transformers

P
google
3,412
45
Paligemma2 3b Ft Docci 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト
Transformers

P
google
8,765
12
Llama 3.1 8B Dragonfly V2
トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします
画像生成テキスト 英語
L
togethercomputer
113
1
Convllava JP 1.3b 1280
ConvLLaVA-JPは高解像度入力に対応した日本語視覚言語モデルで、入力画像について対話が可能です。
画像生成テキスト
Transformers 日本語

C
toshi456
31
1
Cogvlm2 Llama3 Chat 19B Int4
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
467
28
360VL 70B
Apache-2.0
360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。
テキスト生成画像
Transformers 複数言語対応

3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。
テキスト生成画像
Transformers 英語

C
THUDM
7,805
212
360VL 8B
Apache-2.0
360VLはLLama3言語モデルをベースに開発されたマルチモーダルモデルで、強力な画像理解とバイリンガル対話能力を備えています。
テキスト生成画像
Transformers 複数言語対応

3
qihoo360
22
13
Paligemma 3b Pt 896
PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する多機能の軽量級視覚言語モデル(VLM)で、多言語能力を備えています。
画像生成テキスト
Transformers

P
google
1,788
119
Paligemma 3b Ft Ocrvqa 448
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
画像生成テキスト
Transformers

P
google
365
6
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。
画像生成テキスト
Transformers 英語

X
Salesforce
240
18
Xgen Mm Phi3 Mini Instruct R V1
xGen-MMはSalesforce AI Researchが開発した最新の基盤大規模マルチモーダルモデルシリーズで、BLIPシリーズを改良し、強力な画像理解とテキスト生成能力を備えています。
画像生成テキスト
Transformers 英語

X
Salesforce
804
186
Llava Llama 3 8b V1 1 Gguf
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336モデルをファインチューニングしたマルチモーダルモデルで、画像理解とテキスト生成をサポート
画像生成テキスト
L
xtuner
9,484
216
Llava Llama 3 8b V1 1 Transformers
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート
画像生成テキスト
L
xtuner
454.61k
78
Monkey
モンキーモデルは効率的な大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル方法の改善により、複数の視覚タスクで優れた性能を発揮します。
画像生成テキスト
Transformers

M
echo840
308
31
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98