# 視覚言語インタラクション

Qwen2.5 VL 7B Instruct Q8 0 GGUF
Apache-2.0
このモデルはQwen2.5-VL-7B-Instructを変換したGGUF形式のモデルで、マルチモーダルタスクをサポートし、画像とテキストのインタラクティブな処理に適しています。
テキスト生成画像 英語
Q
cxtb
72
1
Qwen2.5 VL 3B Instruct GGUF
Qwen2.5-VL-3B-Instructは3Bパラメータ規模のマルチモーダルモデルで、画像テキスト生成タスクをサポートし、特にllama.cppでの視覚機能サポートを最適化しています。
テキスト生成画像 英語
Q
Mungert
10.44k
8
Qwen2 VL 72B Instruct
その他
Qwen2-VL-72B-Instruct はマルチモーダル視覚言語モデルで、画像とテキストのインタラクションをサポートし、複雑な視覚言語タスクに適しています。
画像生成テキスト Transformers 英語
Q
FriendliAI
18
1
Qwen2 VL 7B Visual Rft Lisa IoU Reward
Apache-2.0
Qwen2-VL-7B-InstructはQwen2アーキテクチャに基づく視覚言語モデルで、画像とテキストのマルチモーダル入力をサポートし、様々な視覚言語タスクに適しています。
画像生成テキスト 英語
Q
Zery
726
4
Magma 8B
MIT
MagmaはマルチモーダルAIエージェントの基盤モデルで、画像とテキスト入力を処理しテキスト出力を生成可能。仮想と現実環境における複雑なインタラクション能力を備えています。
画像生成テキスト Transformers
M
microsoft
4,526
363
Qwen2.5 VL 3B Instruct MLX 8bits
これはQwen2.5-VL-3B-Instructモデルを基にした8ビット量子化バージョンで、MLXフレームワーク向けに最適化されており、画像テキスト生成タスクをサポートします。
画像生成テキスト Transformers 英語
Q
moot20
27
1
AURORA
MIT
AURORAは、ビデオとシミュレーションに基づくアクションと推論を中心とした画像編集モデルで、視覚言語タスクに焦点を当てています。
画像生成 英語
A
McGill-NLP
81
4
Chat Vector Llava V1.5 7b Ja
入力画像に対して日本語で対話可能な視覚言語モデルで、Chat Vector手法を用いて複数のモデル重みを統合して作成
画像生成テキスト Transformers 日本語
C
toshi456
26
1
Internlm Xcomposer2 Vl 1 8b
その他
InternLM2ベースの視覚-言語大規模モデルで、優れた画像理解と創作能力を備えています
テキスト生成画像 Transformers
I
internlm
169
18
Internlm Xcomposer2 Vl 7b
その他
InternLM-XComposer2はInternLM2を基に開発された視覚-言語大規模モデルで、卓越した画像テキスト理解と創作能力を備えています。
テキスト生成画像 Transformers
I
internlm
1,902
82
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase