# マルチモーダル画像理解

Pixtral 12b GGUF
Apache-2.0
Mistral-Communityが提供するマルチモーダル大規模モデルで、画像とテキスト処理をサポートし、128kのコンテキスト長と可変画像サイズ処理能力を備えています。
画像生成テキスト
P
lmstudio-community
611
1
Gemma 3 27B It Qat GGUF
Googleが提供するGemma 3 27B ITモデルは、様々なテキスト生成や画像理解タスクに適しており、128kトークンのコンテキスト長とマルチモーダル画像処理をサポートします。
画像生成テキスト
G
lmstudio-community
41.35k
8
Gemma 3 12b It Qat 8bit
その他
Google Gemma 3 12Bモデルを基に変換された8ビット量子化バージョンで、画像テキストからテキストへのタスクに適しています。
画像生成テキスト Transformers その他
G
mlx-community
149
1
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct は、画像とテキストの共同理解と生成タスクをサポートするマルチモーダル視覚言語モデルです。
画像生成テキスト 英語
Q
samgreen
25.59k
6
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートします。
画像生成テキスト 英語
Q
samgreen
5,052
9
Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instruct はマルチモーダルな視覚言語モデルで、画像とテキストのインタラクティブな生成タスクをサポートします。
画像生成テキスト 英語
Q
samgreen
2,073
1
Gemma 3 12b It Gguf
Gemma-3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力に対応し、テキスト出力を生成します。Geminiモデルの研究と技術に基づいて構築されており、128Kの大規模コンテキストウィンドウを備え、140以上の言語をサポートしています。
画像生成テキスト
G
Mungert
4,574
11
Gemma 3 4b It Gguf
Gemma 3はGoogleが開発した軽量オープンソースのマルチモーダルモデルで、画像とテキスト入力をサポートし、テキスト出力を生成します。
画像生成テキスト
G
Mungert
4,593
9
Asagi 14B
Apache-2.0
Asagi-14Bは大規模な日本語視覚言語モデル(VLM)で、幅広い日本語データセットでトレーニングされ、多様なデータソースを統合しています。
画像生成テキスト Transformers 日本語
A
MIL-UT
83
9
Qwen2 VL 2B Instruct GGUF
Apache-2.0
Qwen2-VL-2B-Instruct はマルチモーダルな視覚言語モデルで、画像テキスト生成タスクをサポートし、Qwen2 アーキテクチャに基づいており、パラメータ規模は2Bです。
画像生成テキスト 英語
Q
second-state
125
3
Llama3 Chat Vector Kor Llava V02
これはLlama3アーキテクチャに基づく韓国語マルチモーダルモデルで、画像理解と韓国語対話をサポートします。
画像生成テキスト Transformers 複数言語対応
L
nebchi
27
2
Turkish LLaVA V0.1 Q4 K M GGUF
MIT
Turkish-LLaVA-v0.1-Q4_K_M-GGUF はトルコ語のビジュアル言語モデルで、画像テキストからテキストへの処理タスクをサポートしています。
画像生成テキスト その他
T
atasoglu
127
4
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase