# 視覚的指示ファインチューニング

Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
これはMistral-Small-3.1-24B-Instruct-2503をベースにした視覚強化バージョンで、画像テキスト生成タスクをサポートしています。
画像生成テキスト
M
ggml-org
670
3
General Reasoner 14B Preview
Apache-2.0
Qwen2.5-14BベースモデルとVisualWebInstruct-Verifiedデータセットでトレーニングされたマルチモーダル推論モデルで、英語タスク処理をサポートします。
大規模言語モデル Transformers 英語
G
TIGER-Lab
33
3
Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instruct はマルチモーダルな視覚言語モデルで、画像とテキストのインタラクティブな生成タスクをサポートします。
画像生成テキスト 英語
Q
samgreen
2,073
1
Vsft Llava 1.5 7b Hf Trl
LLaVA-1.5-7Bモデルを基に視覚的監督ファインチューニング(VSFT)で訓練されたマルチモーダル視覚言語モデルで、画像理解と対話生成をサポート
画像生成テキスト Transformers 英語
V
HuggingFaceH4
65
14
Llava V1.5 Mlp2x 336px Pretrain Vicuna 13b V1.5
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaをGPT生成のマルチモーダル指示追従データでファインチューニングして作成されました。
テキスト生成画像 Transformers
L
liuhaotian
66
2
Llava Pretrain Vicuna 7b V1.3
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaを基にGPTが生成したマルチモーダル指示追従データでファインチューニングされています。
テキスト生成画像 Transformers
L
liuhaotian
54
1
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase