# マルチモーダル命令微調整

Qwen2.5 Vl Vqa Vibook
Apache-2.0
Qwen2.5アーキテクチャに基づくビジュアルQAモデルで、ベトナム語シナリオに特化し、画像関連の質問に対する解答をサポートします。
テキスト生成画像 その他
Q
sunbv56
148
0
R1 VL 2B
Apache-2.0
R1-VL-2Bは、段階的グループ相対戦略最適化(StepGRPO)によって訓練された視覚言語推論モデルで、Qwen2-VL-2B-Instructを基に最適化されています。
画像生成テキスト Transformers
R
jingyiZ00
272
1
Phi 4 Multimodal Instruct Ko Asr
microsoft/Phi-4-multimodal-instructを微調整した韓国語自動音声認識(ASR)および音声翻訳(AST)モデルで、zeroth-koreanとfleursデータセットで優れた性能を発揮します。
テキスト生成オーディオ Transformers 韓国語
P
junnei
354
3
Smolvlm2 2.2B Instruct 4bit
Apache-2.0
SmolVLM2-2.2B-Instruct-4bit はMLXフォーマット変換に基づく視覚言語モデルで、動画テキストからテキストへのタスクに特化しています。
画像生成テキスト Transformers 英語
S
smdesai
24
1
Kowen Vol 1 Base 7B
Apache-2.0
Qwen2-VL-7B-Instructを基にした韓国語視覚言語モデルで、画像からテキストタスクをサポート
画像生成テキスト Transformers 韓国語
K
Gwonee
22
1
Pixtral 12B Captioner Relaxed
Apache-2.0
Pixtral-12B-2409を微調整したマルチモーダル大規模言語モデルで、豊富な画像説明の生成に特化
画像生成テキスト Transformers 英語
P
unalignment
26
3
Llama 3.2 11B Vision Instruct Abliterated 8 Bit
これはLlama-3.2-11B-Vision-Instructに基づくマルチモーダルモデルで、画像とテキストの入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers 複数言語対応
L
mlx-community
128
0
Qwen2 VL 7B SafeRLHF
Apache-2.0
Qwen2-VL-7B-Instructは、SafeRLHFデータセットで微調整されたマルチモーダル大規模言語モデルで、視覚質問応答タスクに焦点を当て、安全性を重視しています。
テキスト生成画像 Safetensors 英語
Q
Foreshhh
1,630
2
Chartgemma
MIT
ChartGemmaはPaliGemmaを基に構築されたグラフ理解と推論モデルで、視覚的指令微調整を通じて直接グラフ画像を処理し、視覚的トレンドと基盤情報を捕捉します。
画像生成テキスト Transformers 英語
C
ahmed-masry
1,243
41
Vip Llava 7b
ViP-LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを画像と地域レベルの命令データで微調整してトレーニングされています。
テキスト生成画像 Transformers
V
mucai
66.75k
8
Llava Med 7b Delta
その他
LLaVA-Medは視覚命令微調整によって構築されたバイオメディカル分野のマルチモーダルモデルで、バイオメディカル画像とテキストを処理する能力を備えています。
テキスト生成画像 Transformers
L
microsoft
257
67
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase