# マルチモーダル命令理解

Pixelreasoner RL V1
Apache-2.0
PixelReasonerはQwen2.5-VL-7B-Instructを基にした視覚言語モデルで、好奇心駆動型強化学習で訓練され、画像テキストからテキストへのタスクに特化しています。
画像生成テキスト Transformers 英語
P
TIGER-Lab
112
3
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct は Qwen2.5 アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚言語タスクに適しています。
画像生成テキスト Safetensors 英語
J
xlangai
239
2
Ultravox V0 5 Llama 3 1 8b
MIT
Llama-3.1-8B-Instructベースの多言語音声テキスト変換モデル、40以上の言語処理をサポート
大規模言語モデル Transformers 複数言語対応
U
FriendliAI
218
0
Llama 4 Scout 17B 16E Instruct FP8 Dynamic
その他
Llama-4をベースに構築された17Bパラメータの多言語命令モデル、FP8量子化を採用しリソース要件を大幅に削減
画像生成テキスト 複数言語対応
L
RedHatAI
5,812
8
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの共同理解と生成タスクをサポートします。
画像生成テキスト 英語
Q
Mungert
9,766
6
Qwen.qwen2.5 VL 32B Instruct GGUF
Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル視覚言語モデルで、画像とテキストの共同理解と生成タスクをサポートします。
画像生成テキスト
Q
DevQuasar
27.50k
1
Qwen2.5 VL 32B Instruct W4A16 G128
Apache-2.0
Qwen2.5-VL-32B-Instructは32Bパラメータ規模のマルチモーダル大規模言語モデルで、視覚と言語タスクをサポートし、複雑なマルチモーダルインタラクションシナリオに適しています。
画像生成テキスト
Q
leon-se
16
2
Qwen2 VL 2B Instruct
Apache-2.0
Qwen2-VL-2B-Instruct はマルチモーダル視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers 英語
Q
FriendliAI
24
1
Qwen2 VL 7B Visual Rft Lisa IoU Reward
Apache-2.0
Qwen2-VL-7B-InstructはQwen2アーキテクチャに基づく視覚言語モデルで、画像とテキストのマルチモーダル入力をサポートし、様々な視覚言語タスクに適しています。
画像生成テキスト 英語
Q
Zery
726
4
Qwen 2 VL 7B OCR
Apache-2.0
Qwen2-VL-7Bモデルを基にした微調整バージョンで、UnslothとHuggingfaceのTRLライブラリを使用して訓練され、速度が2倍向上しました。
テキスト生成画像 Transformers 英語
Q
Swapnik
103
1
Llama 3.2 11B Vision OCR
Apache-2.0
Unslothで最適化されたLlama 3.2-11B視覚命令モデル、4ビット量子化バージョン、トレーニング速度2倍向上
大規模言語モデル Transformers 英語
L
Swapnik
80
1
Phi 4 Multimodal Instruct
MIT
Phi-4-multimodal-instructは軽量でオープンソースのマルチモーダル基盤モデルで、Phi-3.5と4.0モデルの言語、視覚、音声研究とデータセットを統合しています。テキスト、画像、音声入力をサポートし、テキスト出力を生成し、128Kトークンのコンテキスト長を備えています。
マルチモーダル融合 Transformers 複数言語対応
P
Robeeeeeeeeeee
21
1
Phi 4 Multimodal Instruct Onnx
MIT
Phi-4マルチモーダルモデルのONNXバージョンで、int4精度に量子化され、ONNX Runtimeによる推論加速をサポートし、テキスト、画像、音声入力をサポートします。
マルチモーダル融合 その他
P
microsoft
159
66
Qwen2.5 VL 7B Instruct 4bit
Apache-2.0
Qwen2.5-VL-7B-Instructモデルをファインチューニングしたマルチモーダルモデルで、Unsloth高速化フレームワークとTRLライブラリを使用し、速度が2倍向上
テキスト生成画像 Transformers 英語
Q
jarvisvasu
180
1
Llama 3.2 11B Vision Instruct GGUF
Llama-3.2-11B-Vision-Instructは多言語対応の視覚 - 言語モデルで、画像テキストからテキストへの変換タスクに使用できます。
画像生成テキスト Transformers 複数言語対応
L
pbatra
172
1
Pixtral Large Instruct 2411
その他
Pixtral-Large-Instruct-2411はMistralAI技術を基にしたマルチモーダル命令微調整モデルで、画像とテキスト入力をサポートし、多言語処理能力を備えています。
画像生成テキスト Transformers 複数言語対応
P
nintwentydo
23
2
Qwen2 VL 7B Instruct GGUF
Apache-2.0
Qwen2-VL-7B-Instructは7Bパラメータ規模のマルチモーダルモデルで、画像とテキストのインタラクティブタスクをサポートします。
画像生成テキスト 英語
Q
gaianet
102
2
Qwen2 VL 7B Instruct Onnx
Apache-2.0
これはQwen2-VLアーキテクチャに基づく7Bパラメータ規模の視覚言語モデルで、画像理解と命令インタラクションをサポートします。
テキスト生成画像 Transformers
Q
pdufour
47
4
Taivisionlm Base V2
繁体中国語命令入力をサポートする初の視覚言語モデル(12億パラメータ)、Transformersライブラリと互換性があり、迅速なロードと簡単な微調整が可能
画像生成テキスト Transformers 中国語
T
benchang1110
122
4
Openvla 7b Finetuned Libero 10
MIT
このモデルは、LIBERO-10データセットでLoRAメソッドを使用してOpenVLA 7Bモデルを微調整して得られた視覚言語動作モデルで、ロボット技術分野に適しています。
画像生成テキスト Transformers 英語
O
openvla
1,779
2
Octo Small 1.5
MIT
Octo小型版はロボット制御のための拡散戦略モデルで、Transformerアーキテクチャを採用し、視覚入力と言語命令に基づいてロボットの動作を予測できます。
マルチモーダル融合 Transformers
O
rail-berkeley
250
6
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase