# マルチモーダル指示追従

Qwen3 8B GGUF
Apache-2.0
Qwenチームが開発した8Bパラメータ規模の大規模言語モデルで、超長コンテキストと多言語処理をサポート
大規模言語モデル
Q
lmstudio-community
39.45k
6
Documentcogito
Apache-2.0
unsloth/Llama-3.2-11B-Vision-Instructを基にファインチューニングされたマルチモーダルモデルで、視覚-言語タスクに最適化され指示追従能力が強化されており、Unslothフレームワークにより2倍のトレーニング加速を実現
テキスト生成画像 Transformers 英語
D
Daemontatox
73
1
Turkish LLaVA V0.1
MIT
マルチモーダル視覚指示追従タスク専用に設計されたトルコ語視覚言語モデルで、視覚(画像)とテキスト入力を同時に処理し、トルコ語で提供される指示を理解して実行できます。
画像生成テキスト Safetensors その他
T
ytu-ce-cosmos
86
10
Spydaz Web AI Llava
LLaVaはオープンソースのマルチモーダルチャットボットで、LLaMA/VicunaをGPT生成のマルチモーダル指示追従データでファインチューニングしたもので、チャット/指示に最適化されたマルチモーダル版LLMです。
画像生成テキスト Transformers 複数言語対応
_
LeroyDyer
30
1
Llava 1.5 7b Llara D Inbc Aux B VIMA 80k
Apache-2.0
LLaRAはオープンソースの視覚運動戦略モデルで、LLaVA-7b-v1.5を指示追従データと補助データセットでファインチューニングして訓練され、主にロボット技術研究に使用されます。
Transformers
L
variante
390
2
Denseconnector V1.5 8B
DenseConnectorはオープンソースのチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTが生成したマルチモーダル指示追従データでトレーニングされています。
画像生成テキスト Transformers
D
HuanjinYao
17
7
Llava V1.6 Vicuna 7b
LLaVAはオープンソースのマルチモーダルチャットボットで、マルチモーダル指示追従データを用いた大規模言語モデルのファインチューニングによって訓練されています。
テキスト生成画像 Transformers
L
liuhaotian
31.65k
123
Llava V1.6 34b
Apache-2.0
LLaVAはオープンソースのマルチモーダルチャットボットで、大規模言語モデルのファインチューニングにより訓練され、画像とテキストのインタラクションをサポートします。
テキスト生成画像
L
liuhaotian
9,033
351
Llama Vid 7b Full 224 Video Fps 1
LLaMA-VIDはLLaMA/Vicunaをファインチューニングしたオープンソースのマルチモーダルチャットボットで、拡張されたコンテキストトークンにより数時間に及ぶ動画処理をサポートします。
テキスト生成ビデオ Transformers
L
YanweiLi
86
9
Japanese Stable Vlm
その他
視覚言語指示追従モデルで、入力画像に対する日本語説明を生成し、オプションで入力テキスト(質問など)を処理できます。
画像生成テキスト Transformers 日本語
J
stabilityai
122
48
Bakllava 1
Apache-2.0
BakLLaVA-1はMistral 7Bモデルをベースに、LLaVA 1.5アーキテクチャで強化されたマルチモーダルモデルで、複数のベンチマークテストにおいてLlama 2 13Bの性能を上回っています。
テキスト生成画像 Transformers 英語
B
SkunkworksAI
152
380
Llava V1.5 Mlp2x 336px Pretrain Vicuna 7b V1.5
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。
テキスト生成画像 Transformers
L
liuhaotian
173
17
Speechgpt 7B Ma
SpeechGPTは、人間の指示に基づいてマルチモーダルコンテンツを認識・生成できる内在的なクロスモーダル対話能力を備えた大規模言語モデルです。
テキスト生成オーディオ Transformers
S
fnlp
37
5
Llava Llama 2 7b Chat Lightning Lora Preview
LLaVAはオープンソースのマルチモーダルチャットボットで、LLaMA/Vicunaをファインチューニングし、GPTで生成されたマルチモーダル指示追従データでトレーニングされています。
テキスト生成画像 Transformers
L
liuhaotian
251
12
Llava Lightning 7B Delta V1 1
Apache-2.0
LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースチャットボットです
テキスト生成画像 Transformers
L
liuhaotian
699
21
Llava 7b Delta V0
Apache-2.0
LLaVAはLLaMA/VicunaをベースにGPTで生成したマルチモーダル指示追従データでファインチューニングされたオープンソースのチャットボットで、視覚と言語のマルチモーダルインタラクションをサポートします。
テキスト生成画像 Transformers
L
liuhaotian
131
17
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase