# マルチモーダル理解

Gemma 3 27b It Quantized.w4a16
これはgoogle/gemma-3-27b-itの量子化バージョンで、ビジュアル - テキスト入力とテキスト出力をサポートし、重み量子化と活性化量子化による最適化を行い、vLLMを使用して高効率推論が可能です。
画像生成テキスト Transformers
G
RedHatAI
302
1
Nvidia.cosmos Reason1 7B GGUF
Cosmos-Reason1-7BはNVIDIAがリリースした70億パラメータ規模のベースモデルで、画像からテキストへの変換タスクに特化しています。
大規模言語モデル
N
DevQuasar
287
1
Devstral Small Vision 2505 GGUF
Apache-2.0
Mistral Smallモデルを基にした視覚エンコーダーで、画像テキスト生成タスクをサポートし、llama.cppフレームワークに適応
画像生成テキスト
D
ngxson
777
20
Fastvlm 0.5B Stage3
その他
FastVLM-0.5B-Stage3は、ビジュアル理解と言語処理能力を備えた高効率のマルチモーダル言語モデルで、長時間ビデオを処理し、構造化出力を生成することができます。
画像生成テキスト Transformers 英語
F
zhaode
174
1
Fastvlm 0.5B Stage2
その他
FastVLM-0.5B-Stage2は、ビジュアルコンテンツを理解し、テキストタスクを処理できる効率的なマルチモーダル言語モデルです。
マルチモーダル融合 Transformers 英語
F
zhaode
103
1
Magma 8B GGUF
MIT
Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。
画像生成テキスト
M
Mungert
545
1
Typhoon Ocr 7b
タイ・英語バイリンガルの現実世界文書解析のために特別に設計された視覚言語モデル、Qwen2.5-VL-Instructionフレームワークベース
画像生成テキスト Transformers 複数言語対応
T
scb10x
126
9
Gemma 3 1b It Qat Bnb 4bit
Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Gemini技術を基盤に構築されており、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト Transformers
G
unsloth
23
1
Qwen Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。
テキスト生成画像 英語
Q
bartowski
1,336
1
Qwen Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instructの量子化バージョンで、llama.cppを使用して量子化されており、マルチモーダルタスクをサポートし、画像からテキストへの変換などのアプリケーションシーンに適しています。
テキスト生成画像 英語
Q
bartowski
2,056
2
Vilt Finetuned 100
Apache-2.0
VQAデータセットでファインチューニングされたViLT-B32-MLMモデルベースの視覚言語モデル
テキスト生成画像 Transformers
V
bangbrecho
15
0
TEMPURA Qwen2.5 VL 3B S1
TEMPURAは因果推論と細粒度時間セグメンテーションを統合したビデオ時系列理解フレームワークで、2段階トレーニングによりビデオイベント理解能力を向上
ビデオ生成テキスト Transformers
T
andaba
16
0
Qwen2.5 Vl 7b Cam Motion Preview
その他
Qwen2.5-VL-7B-Instructをファインチューニングしたカメラ運動分析モデルで、ビデオ内のカメラ運動分類とビデオ-テキスト検索タスクに特化
ビデオ生成テキスト Transformers
Q
chancharikm
1,456
10
Webssl Dino7b Full8b 518
80億のMetaCLIPデータで訓練された70億パラメータの視覚Transformerモデル、DINOv2自己監視学習フレームワークを採用、言語監視不要
画像分類 Transformers
W
facebook
157
7
Gemma 3 12b It Qat Int4 GGUF
Gemma 3はGoogleがGemini技術を基に構築した軽量オープンモデルシリーズで、12Bバージョンは量子化対応トレーニング(QAT)技術を採用し、マルチモーダル入力と128Kコンテキストウィンドウをサポートします。
テキスト生成画像
G
unsloth
1,921
3
Gemma 3 27b It Qat Unsloth Bnb 4bit
Gemma 3はGoogleが開発した軽量級で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。
画像生成テキスト Transformers
G
unsloth
2,591
1
Gemma 3 27b It Qat GGUF
Gemma 3はGoogleがGemini技術に基づいて構築した軽量オープンモデルシリーズで、マルチモーダル入力とテキスト出力をサポートし、128Kの大規模コンテキストウィンドウと140以上の言語サポートを備えています。
テキスト生成画像 英語
G
unsloth
2,683
3
Gemma 3 1b It Qat
Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。
画像生成テキスト Transformers
G
unsloth
2,558
1
Gemma 3 4b It Qat Unsloth Bnb 4bit
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデル技術を基盤としており、マルチモーダル入力とテキスト出力をサポートしています。
画像生成テキスト Transformers
G
unsloth
918
1
Gemma 3 12b It Qat Int4
Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiモデルの研究と技術に基づいて構築されています。12Bバージョンは指示チューニングされたマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers
G
unsloth
78
1
Gemma 3 27b It Qat
GemmaはGoogleが提供する軽量オープンモデルシリーズで、Geminiモデル技術を基に構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。128Kの大規模コンテキストウィンドウと多言語能力を備えています。
画像生成テキスト Transformers
G
unsloth
168
2
Gemma 3 12b It Qat Unsloth Bnb 4bit
Gemma 3はGoogleが発表した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト Transformers
G
unsloth
1,422
1
Gemma 3 12b It Qat
Gemma 3はGoogleが開発した軽量で最先端のマルチモーダルオープンソースモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。様々なテキスト生成と画像理解タスクに適しています。
画像生成テキスト Transformers
G
unsloth
952
2
Blip Gqa Ft
MIT
Salesforce/blip2-opt-2.7bをファインチューニングした視覚言語モデルで、画像質問応答タスク用
テキスト生成画像 Transformers
B
phucd
29
0
Blip Custom Captioning
Bsd-3-clause
BLIPは統一された視覚-言語事前学習フレームワークで、画像キャプション生成などの視覚-言語タスクに優れています
画像生成テキスト
B
hiteshsatwani
78
0
Internvl3 8B 6bit
その他
InternVL3-8B-6bit はMLXフォーマット変換に基づく視覚言語モデルで、多言語の画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
I
mlx-community
70
1
Gemma 3 12B It Qat GGUF
Gemma 3 12B ITはGoogleが開発した大規模言語モデルで、マルチモーダル入力と長いコンテキスト処理をサポートしています。
画像生成テキスト
G
lmstudio-community
36.65k
4
Gemma 3 4B It Qat GGUF
Googleが開発したGemma 3 4B ITモデルは、マルチモーダル入力と長文コンテキスト処理をサポートし、テキスト生成や画像理解タスクに適しています。
画像生成テキスト
G
lmstudio-community
46.55k
10
Kimi VL A3B Thinking 8bit
その他
Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。
画像生成テキスト Transformers その他
K
mlx-community
1,738
1
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング(QAT)を経て BF16 形式に変換され、MLX フレームワークに適しています。
画像生成テキスト Transformers
G
mlx-community
178
2
Gemma 3 27b It Qat 3bit
その他
このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。
画像生成テキスト Transformers その他
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
その他
Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
G
mlx-community
2,200
12
Mistral Small 3.1 24B Instruct 2503 Quantized.w8a8
Apache-2.0
これはRed HatとNeural Magicによって最適化されたINT8量子化されたMistral-Small-3.1-24B-Instruct-2503モデルで、高速応答と低遅延シナリオに適しています。
Safetensors 複数言語対応
M
RedHatAI
833
2
Gemma 3 4b It Qat 4bit
その他
Gemma 3 4B IT QAT 4bit は、量子化認識トレーニング(QAT)を経た4ビット量子化大規模言語モデルで、Gemma 3アーキテクチャに基づき、MLXフレームワーク向けに最適化されています。
画像生成テキスト Transformers その他
G
mlx-community
607
1
Gemma 3 27b It Qat Q4 0 Unquantized
Gemma 3はGoogleが提供する軽量で先進的なマルチモーダルオープンモデルで、Geminiモデルと同じ研究と技術に基づいて構築されており、テキストと画像の入力をサポートしテキスト出力を生成します。
テキスト生成画像 Transformers
G
google
11.53k
23
Videochat R1 7B
Apache-2.0
VideoChat-R1_7B は Qwen2.5-VL-7B-Instruct をベースとしたマルチモーダル動画理解モデルで、動画とテキスト入力を処理し、テキスト出力を生成できます。
ビデオ生成テキスト Transformers 英語
V
OpenGVLab
1,686
7
Gemma 3 4b It GPTQ 4b 128g
gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減
画像生成テキスト Transformers
G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成可能。128Kの大規模コンテキストウィンドウと多言語能力を備えています。
画像生成テキスト Transformers
G
google
1,358
9
Gemma 3 4b It Qat Int4 Unquantized
Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。4Bバージョンはインストラクションチューニングと量子化対応トレーニングを経ており、リソースが限られた環境でのデプロイに適しています。
画像生成テキスト Transformers
G
google
541
3
Gemma 3 27b It Qat Compressed Tensors
Gemma 3はGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiモデルと同じ研究と技術に基づいています。このバージョンは27Bパラメータのインストラクションチューニングモデルで、量子化認識トレーニング(QAT)と圧縮テンソル技術を採用しています。
画像生成テキスト
G
gaunernst
1,985
6
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase