# 画像テキスト生成

Gemma 3 12b It Quantized.w8a8
google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。
画像生成テキスト Transformers
G
RedHatAI
237
1
Xlangai Jedi 3B 1080p GGUF
Apache-2.0
Jedi-3B-1080pはxlangaiによって開発された3Bパラメータモデルで、llama.cppによる量子化処理が施されており、画像テキスト生成タスクに適しています。
大規模言語モデル 英語
X
bartowski
148
1
Medgemma 4b It GGUF
その他
medgemma-4b-itは医療分野に特化した多モーダルモデルで、画像とテキストの入力を処理でき、放射線学や臨床推論などのさまざまな医療シーンに適用できます。
テキスト生成画像 Transformers
M
second-state
564
1
Dimple 7B
Apache-2.0
Dimpleは自己回帰と拡散トレーニングのパラダイムを組み合わせた最初の離散拡散マルチモーダル大規模言語モデル(DMLLM)であり、LLaVA-NEXTと同じデータセットでトレーニング後、LLaVA-NEXT-7Bを3.9%上回りました。
画像生成テキスト Transformers 英語
D
rp-yu
422
3
Magma 8B GGUF
MIT
Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。
画像生成テキスト
M
Mungert
545
1
Llava 1.5 7b Hf Q4 K M GGUF
このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。
画像生成テキスト 英語
L
Marwan02
30
1
Qwen Qwen2.5 VL 72B Instruct GGUF
その他
Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。
テキスト生成画像 英語
Q
bartowski
1,336
1
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct は Qwen2.5 アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚言語タスクに適しています。
画像生成テキスト Safetensors 英語
J
xlangai
239
2
Mistral Community Pixtral 12b GGUF
Apache-2.0
これはpixtral-12bモデルの量子化バージョンで、llama.cppを使用して量子化されており、画像テキストからテキストへのタスクをサポートします。
M
bartowski
1,728
4
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。
画像生成テキスト Transformers 複数言語対応
U
mlx-community
184
1
Gemma 3 1b It Qat
Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。
画像生成テキスト Transformers
G
unsloth
2,558
1
Internvl3 8B Hf
その他
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
454
1
Internvl3 2B Hf
その他
InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
41.22k
2
Internvl3 1B Hf
その他
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。
画像生成テキスト Transformers その他
I
OpenGVLab
1,844
2
Kimi VL A3B Thinking 8bit
その他
Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。
画像生成テキスト Transformers その他
K
mlx-community
1,738
1
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング(QAT)を経て BF16 形式に変換され、MLX フレームワークに適しています。
画像生成テキスト Transformers
G
mlx-community
178
2
Gemma 3 27b It Qat 3bit
その他
このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。
画像生成テキスト Transformers その他
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
その他
Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers その他
G
mlx-community
2,200
12
Barcenas 4b
google/gemma-3-4b-itモデルをベースに訓練されたマルチモーダルモデルで、数学、プログラミング、科学、パズル解決分野の高品質データ処理に特化しています。
画像生成テキスト Transformers 英語
B
Danielbrdz
15
2
Gemma 3 4b It GPTQ 4b 128g
gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減
画像生成テキスト Transformers
G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成可能。128Kの大規模コンテキストウィンドウと多言語能力を備えています。
画像生成テキスト Transformers
G
google
1,358
9
Gemma 3 12b It Qat Q4 0 Unquantized
Gemma 3はGoogleがGemini技術を基に開発した軽量オープンソースマルチモーダルモデルシリーズで、テキストと画像の入力を受け取りテキスト出力を生成します。12Bバージョンは指示チューニングと量子化対応トレーニング(QAT)を経ており、リソースが限られた環境での展開に適しています。
テキスト生成画像 Transformers
G
google
1,159
10
Gemma 3 27b It Qat Q4 0 Gguf
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、テキスト出力を生成できます。このバージョンは270億パラメータのインストラクションチューニングモデルで、量子化認識トレーニング技術を採用し、メモリ要件が低いながらもオリジナル版に近い品質を維持しています。
画像生成テキスト
G
vinimuchulski
4,674
6
Vora 7B Instruct
VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。
画像生成テキスト Transformers
V
Hon-Wong
154
12
Vora 7B Base
VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト Transformers
V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。
画像生成テキスト 英語
Q
PatataAliena
69
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
画像生成テキスト 英語
Q
Mungert
17.10k
10
Heron NVILA Lite 1B
Apache-2.0
NVILA-Liteアーキテクチャでトレーニングされた日本語視覚言語モデル、日本語と英語の画像テキストインタラクションをサポート
画像生成テキスト Safetensors 複数言語対応
H
turing-motors
460
2
Gemma 3 27b It Int4 Awq
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいています。27Bバージョンはマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。
テキスト生成画像 Transformers
G
gaunernst
17.62k
16
Gemma 3 4b It Int4 Awq
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像 Transformers
G
gaunernst
1,054
1
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers 英語
S
ahishamm
24
1
Gemma 3 4b Pt Qat Q4 0 Gguf
Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト
G
google
912
16
Gemma 3 27b It Mlx
これはGoogle Gemma 3 27B ITモデルを変換したMLXバージョンで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers
G
stephenwalker
24
1
Rexseek 3B
その他
これは画像テキストからテキストへの変換モデルで、画像とテキスト入力を処理し、対応するテキスト出力を生成できます。
テキスト生成画像 Transformers
R
IDEA-Research
186
4
Bytedance Research.ui TARS 72B SFT GGUF
バイトダンス研究チームが発表した72Bパラメータ規模のマルチモーダル基礎モデルで、画像テキストからテキストへの変換タスクに特化
画像生成テキスト
B
DevQuasar
81
1
Chameleon 7b
その他
Metaが発表したカメレオンシリーズ7Bパラメータ規模のマルチモーダルモデルで、画像テキストからテキストへのタスクをサポート
大規模言語モデル
C
FriendliAI
24
1
Toriigate V0.4 7B I1 GGUF
Apache-2.0
これはMinthy/ToriiGate-v0.4-7Bモデルに対して重み/重要度行列量子化を施したバージョンで、様々なニーズに対応する複数の量子化オプションを提供します。
画像生成テキスト 英語
T
mradermacher
410
1
Internvl2 5 4B AWQ
MIT
InternVL2_5-4B-AWQ は autoawq を使用して InternVL2_5-4B を AWQ 量子化したバージョンで、多言語およびマルチモーダルタスクをサポートします。
画像生成テキスト Transformers その他
I
rootonchair
29
2
Aya Vision 8b
Aya Vision 8Bはオープンウェイトの80億パラメータ多言語視覚言語モデルで、23言語の視覚と言語タスクをサポートします。
画像生成テキスト Transformers 複数言語対応
A
CohereLabs
29.94k
282
Gemma 3 12b It
GemmaはGoogleが提供する軽量で最先端のオープンソースマルチモーダルモデルシリーズで、Geminiモデルの技術を基に構築されており、テキストと画像の入力をサポートし、テキスト出力を生成します。
画像生成テキスト Transformers
G
google
364.65k
340
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase