# マルチモーダル視覚質問応答

Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、Neural Magicによって最適化・公開されています。
画像生成テキスト Transformers 英語
Q
parasail-ai
78
1
Qwen2.5 VL 3B Instruct Quantized.w4a16
Apache-2.0
Qwen2.5-VL-3B-Instructの量子化バージョンで、重みをINT4、活性化をFP16に量子化しており、視覚-テキストタスクの効率的な推論に適しています。
テキスト生成画像 Transformers 英語
Q
RedHatAI
167
1
Qwen2.5 VL 72B Instruct FP8 Dynamic
Apache-2.0
Qwen2.5-VL-72B-InstructのFP8量子化バージョンで、視覚-テキスト入力とテキスト出力をサポートし、マルチモーダルタスクに適しています。
テキスト生成画像 Transformers 英語
Q
RedHatAI
1,837
3
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instructを基にしたマルチモーダルモデルの量子化バージョンで、画像テキストからテキストタスクをサポートし、様々な量子化レベルに対応しています。
画像生成テキスト 英語
Q
XelotX
201
1
Erax VL 7B V2.0 Preview GGUF
Apache-2.0
EraX-VL-7B-V2.0-Previewは、ベトナム語、英語、中国語をサポートするマルチモーダル基盤モデルで、様々な視覚言語タスクに適用可能です。
画像生成テキスト 複数言語対応
E
mradermacher
162
1
Erax VL 2B V1.5 Q4 K M GGUF
Apache-2.0
これはマルチモーダル視覚質問応答モデルで、ベトナム語、英語、中国語をサポートし、erax-ai/EraX-VL-2B-V1.5を変換したGGUFフォーマットバージョンです。
テキスト生成画像 複数言語対応
E
Ngoac
55
0
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instructは、画像とテキストの統合理解と生成タスクをサポートするマルチモーダル視覚言語モデルです。
画像生成テキスト 英語
Q
second-state
195
4
Paligemma2 28b Pt 896
PaliGemma 2はGoogleが開発した視覚言語モデル(VLM)で、Gemma 2言語モデルとSigLIP視覚モデルの能力を統合し、画像とテキスト入力を処理してテキスト出力を生成します。
画像生成テキスト Transformers
P
google
116
48
Paligemma2 3b Mix 224
PaliGemma 2はGoogleが開発したアップグレード版の視覚言語モデルで、Gemma 2の能力を組み合わせ、画像とテキストの入力に対応し、テキスト出力を生成します。様々な視覚言語タスクに適しています。
画像生成テキスト Transformers
P
google
15.23k
28
Minicpm Llama3 V 2 5 GGUF
MiniCPM-Llama3-V-2_5はLlama3アーキテクチャに基づくマルチモーダル視覚質問応答モデルで、中英二言語のインタラクションをサポートします。
テキスト生成画像 複数言語対応
M
gaianet
112
3
Llama 3.1 8B Vision 378
このプロジェクトでは、Llama 3に視覚能力を追加するための投影モジュールを訓練し、SigLIP技術を使用してLlama-3.1-8B-Instructモデルに適用しました。
画像生成テキスト Transformers
L
qresearch
203
35
Yi VL 6B Hf
その他
Yi-VL-6Bは01-AIによって開発されたマルチモーダル視覚言語モデルで、中国語と英語をサポートし、視覚質問応答などのタスクに適しています。
画像生成テキスト Transformers 複数言語対応
Y
BUAADreamer
55
2
Paligemma 3b Ft Science Qa 448
PaliGemmaはGoogleが開発した30億パラメータの軽量視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力からテキスト出力を生成できます。
画像生成テキスト Transformers
P
google
15
2
Paligemma 3b Mix 448
PaliGemmaは多機能な軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキストの入力を受け取りテキストを生成します
画像生成テキスト Transformers
P
google
5,488
109
Paligemma 3b Ft Docvqa 896
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、SigLIP視覚モデルとGemma言語モデルを基に構築されており、多言語の画像テキスト理解と生成をサポートします。
画像生成テキスト Transformers
P
google
519
9
Paligemma 3b Ft Vqav2 448
PaliGemmaはGoogleが開発した軽量の視覚言語モデルで、画像理解とテキスト生成能力を組み合わせ、多言語タスクをサポートします。
テキスト生成画像 Transformers
P
google
121
17
Paligemma 3b Ft Ocrvqa 448
PaliGemmaはGoogleが開発した多機能軽量視覚言語モデル(VLM)で、SigLIP視覚モデルとGemma言語モデルを基に構築されており、画像とテキスト入力をサポートし、テキスト結果を出力します。
画像生成テキスト Transformers
P
google
365
6
Excalibur 7b DPO
Apache-2.0
Excalibur-7b-DPOはExcalibur-7bベースモデルを直接選好最適化(DPO)でファインチューニングした大規模言語モデルで、対話品質と視覚アプリケーションシーンのパフォーマンス向上に焦点を当てています。
大規模言語モデル Transformers
E
InferenceIllusionist
22
8
Firellava 13b
FireLLaVA-13Bはオープンソースの大規模言語モデルから生成された命令データで訓練された視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
画像生成テキスト Transformers
F
fireworks-ai
59
55
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase