# 高解像度画像理解

Eurovlm 9B Preview
Apache-2.0
EuroVLM-9B-Previewは、EuroLLM-9Bの長文脈バージョンに基づくマルチモーダルビジュアル言語モデルで、複数の言語とビジュアルタスクをサポートし、現在はプレビューバージョンです。
画像生成テキスト Transformers 複数言語対応
E
utter-project
156
2
Janus Pro 7B
MIT
Janus-Proは革新的な自己回帰型フレームワークで、マルチモーダル理解と生成機能を統合しています。視覚エンコーディングパスを分離し、単一のTransformerアーキテクチャで処理することで、視覚エンコーダが理解と生成の役割間で生じる衝突を解決しました。
テキスト生成画像 Transformers
J
deepseek-ai
139.64k
3,355
Paligemma2 28b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。
画像生成テキスト Transformers
P
google
116
48
Paligemma2 28b Mix 448
PaliGemma 2はGemma 2ベースの視覚言語モデルで、画像+テキスト入力をサポートし、テキスト応答を出力します。様々な視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキストの入力からテキスト出力を生成可能
画像生成テキスト Transformers
P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデル(VLM)で、Gemma 2の能力を統合し、画像とテキスト入力をサポートしてテキスト出力を生成します。
画像生成テキスト Transformers
P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2はGemma 2をベースとした視覚言語モデルで、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
3,412
45
Paligemma2 3b Ft Docci 448
PaliGemma 2はGoogleが発表したアップグレード版の視覚言語モデルで、Gemma 2とSigLIP視覚モデルの能力を組み合わせ、多言語視覚言語タスクをサポートします。
画像生成テキスト Transformers
P
google
8,765
12
Llama 3.1 8B Dragonfly V2
トンボはLlama 3.1をベースに命令微調整で訓練されたマルチモーダル視覚言語モデルで、画像とテキストの統合的理解と生成をサポートします
画像生成テキスト 英語
L
togethercomputer
113
1
Convllava JP 1.3b 1280
ConvLLaVA-JPは高解像度入力に対応した日本語視覚言語モデルで、入力画像について対話が可能です。
画像生成テキスト Transformers 日本語
C
toshi456
31
1
Cogvlm2 Llama3 Chat 19B Int4
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル対話モデルで、中英語をサポートし、8Kのコンテキスト長と1344*1344解像度の画像処理能力を備えています。
テキスト生成画像 Transformers 英語
C
THUDM
467
28
360VL 70B
Apache-2.0
360VLはLLama3言語モデルを基に開発されたオープンソースの大規模マルチモーダルモデルで、強力な画像理解能力と二言語テキストサポートを備えています。
テキスト生成画像 Transformers 複数言語対応
3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、中英二言語をサポートし、強力な画像理解と対話能力を備えています。
テキスト生成画像 Transformers 英語
C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
その他
CogVLM2はMeta-Llama-3-8B-Instructを基に構築されたマルチモーダル大規模モデルで、画像理解と対話タスクをサポートし、8Kのコンテキスト長と1344x1344の画像解像度処理能力を備えています。
テキスト生成画像 Transformers 英語
C
THUDM
7,805
212
360VL 8B
Apache-2.0
360VLはLLama3言語モデルをベースに開発されたマルチモーダルモデルで、強力な画像理解とバイリンガル対話能力を備えています。
テキスト生成画像 Transformers 複数言語対応
3
qihoo360
22
13
Paligemma 3b Pt 896
PaliGemmaは、画像とテキストの入力をサポートし、テキスト出力を生成する多機能の軽量級視覚言語モデル(VLM)で、多言語能力を備えています。
画像生成テキスト Transformers
P
google
1,788
119
Paligemma 3b Ft Ocrvqa 448
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
画像生成テキスト Transformers
P
google
365
6
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MMはSalesforce AI Researchが開発した最新のマルチモーダル大規模モデルシリーズで、BLIPの成功設計を基に、基礎的な強化によりより強力で優れたモデルアーキテクチャを実現しました。
画像生成テキスト Transformers 英語
X
Salesforce
240
18
Xgen Mm Phi3 Mini Instruct R V1
xGen-MMはSalesforce AI Researchが開発した最新の基盤大規模マルチモーダルモデルシリーズで、BLIPシリーズを改良し、強力な画像理解とテキスト生成能力を備えています。
画像生成テキスト Transformers 英語
X
Salesforce
804
186
Llava Llama 3 8b V1 1 Gguf
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336モデルをファインチューニングしたマルチモーダルモデルで、画像理解とテキスト生成をサポート
画像生成テキスト
L
xtuner
9,484
216
Llava Llama 3 8b V1 1 Transformers
Meta-Llama-3-8B-InstructとCLIP-ViT-Large-patch14-336をファインチューニングしたLLaVAモデルで、画像テキストからテキストタスクをサポート
画像生成テキスト
L
xtuner
454.61k
78
Monkey
モンキーモデルは効率的な大規模マルチモーダルモデルで、画像解像度の向上とテキストラベル方法の改善により、複数の視覚タスクで優れた性能を発揮します。
画像生成テキスト Transformers
M
echo840
308
31
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase