# 画像テキスト生成

Gemma 3 12b It Quantized.w8a8
google/gemma-3-12b-itをベースとしたINT8量子化バージョンで、視覚テキスト入力とテキスト出力をサポートし、高効率推論デプロイに適しています。
画像生成テキスト Transformers
G
RedHatAI
237
1
Xlangai Jedi 3B 1080p GGUF
Apache-2.0
Jedi-3B-1080pはxlangaiによって開発された3Bパラメータモデルで、llama.cppによる量子化処理が施されており、画像テキスト生成タスクに適しています。
大規模言語モデル English
X
bartowski
148
1
Medgemma 4b It GGUF
Other
medgemma-4b-itは医療分野に特化した多モーダルモデルで、画像とテキストの入力を処理でき、放射線学や臨床推論などのさまざまな医療シーンに適用できます。
テキスト生成画像 Transformers
M
second-state
564
1
Dimple 7B
Apache-2.0
Dimpleは自己回帰と拡散トレーニングのパラダイムを組み合わせた最初の離散拡散マルチモーダル大規模言語モデル(DMLLM)であり、LLaVA-NEXTと同じデータセットでトレーニング後、LLaVA-NEXT-7Bを3.9%上回りました。
画像生成テキスト Transformers English
D
rp-yu
422
3
Magma 8B GGUF
MIT
Magma-8BはGGUF形式の画像テキストからテキストへの変換モデルで、マルチモーダルタスク処理に適しています。
画像生成テキスト
M
Mungert
545
1
Llava 1.5 7b Hf Q4 K M GGUF
このモデルはllava-hf/llava-1.5-7b-hfから変換されたGGUF形式モデルで、画像テキスト生成タスクをサポートします。
画像生成テキスト English
L
Marwan02
30
1
Qwen Qwen2.5 VL 72B Instruct GGUF
Other
Qwen2.5-VL-72B-Instructのマルチモーダル大規模言語モデル量子化バージョン、画像テキストからテキストタスクをサポート、高精度から低メモリ要求までの多様な量子化レベルに対応。
テキスト生成画像 English
Q
bartowski
1,336
1
Jedi 7B 1080p
Apache-2.0
Qwen2.5-VL-7B-Instruct は Qwen2.5 アーキテクチャに基づくマルチモーダルモデルで、画像とテキストの共同処理をサポートし、視覚言語タスクに適しています。
画像生成テキスト Safetensors English
J
xlangai
239
2
Mistral Community Pixtral 12b GGUF
Apache-2.0
これはpixtral-12bモデルの量子化バージョンで、llama.cppを使用して量子化されており、画像テキストからテキストへのタスクをサポートします。
M
bartowski
1,728
4
UI TARS 1.5 7B 4bit
Apache-2.0
UI-TARS-1.5-7B-4bitはマルチモーダルモデルで、画像テキストからテキストへの変換タスクに特化しており、英語をサポートしています。
画像生成テキスト Transformers Supports Multiple Languages
U
mlx-community
184
1
Gemma 3 1b It Qat
Gemma 3はGoogleが開発した軽量マルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。このモデルは128Kの大きなコンテキストウィンドウと140種類以上の言語のマルチ言語サポートを備えています。
画像生成テキスト Transformers
G
unsloth
2,558
1
Internvl3 8B Hf
Other
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、強力なマルチモーダル知覚と推論能力を備え、画像、動画、テキスト入力をサポートします。
画像生成テキスト Transformers Other
I
OpenGVLab
454
1
Internvl3 2B Hf
Other
InternVL3-2BはHugging Face Transformersライブラリに基づいて実装されたマルチモーダル大規模言語モデルで、画像、ビデオ、テキスト処理などのマルチモーダルタスクで優れた性能を発揮し、さまざまな入力方式と効率的なバッチ推論をサポートします。
画像生成テキスト Transformers Other
I
OpenGVLab
41.22k
2
Internvl3 1B Hf
Other
InternVL3は先進的なマルチモーダル大規模言語モデルシリーズで、優れたマルチモーダル知覚と推論能力を示し、画像、動画、テキスト入力をサポートします。
画像生成テキスト Transformers Other
I
OpenGVLab
1,844
2
Kimi VL A3B Thinking 8bit
Other
Kimi-VL-A3B-Thinking-8bitは、MLX形式に変換されたマルチモーダル視覚言語モデルで、画像テキストからテキストへの生成タスクをサポートしています。
画像生成テキスト Transformers Other
K
mlx-community
1,738
1
Gemma 3 27b It Qat Bf16
Gemma 3 27B IT QAT BF16 は Google がリリースした Gemma シリーズモデルのバージョンで、量子化認識トレーニング(QAT)を経て BF16 形式に変換され、MLX フレームワークに適しています。
画像生成テキスト Transformers
G
mlx-community
178
2
Gemma 3 27b It Qat 6bit
Other
これはGoogle Gemma 3 27Bモデルに基づく量子化バージョンで、6ビット量子化をサポートし、画像テキストからテキストへのタスクに適しています。
画像生成テキスト Transformers Other
G
mlx-community
110
0
Gemma 3 27b It Qat 3bit
Other
このモデルはgoogle/gemma-3-27b-it-qat-q4_0-unquantizedからMLXフォーマットに変換された3ビット量子化バージョンで、画像テキストからテキストタスクに適しています。
画像生成テキスト Transformers Other
G
mlx-community
197
2
Gemma 3 27b It Qat 4bit
Other
Gemma 3 27B IT QAT 4bit はGoogleのオリジナルモデルから変換されたMLX形式のモデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers Other
G
mlx-community
2,200
12
Barcenas 4b
google/gemma-3-4b-itモデルをベースに訓練されたマルチモーダルモデルで、数学、プログラミング、科学、パズル解決分野の高品質データ処理に特化しています。
画像生成テキスト Transformers English
B
Danielbrdz
15
2
Gemma 3 4b It GPTQ 4b 128g
gemma-3-4b-itモデルを基にINT4量子化を施したバージョンで、ストレージと計算リソースの需要を大幅に削減
画像生成テキスト Transformers
G
ISTA-DASLab
502
2
Gemma 3 12b It Qat Int4 Unquantized
Gemma 3はGoogleが提供する軽量マルチモーダルオープンモデルで、テキストと画像の入力をサポートし、テキスト出力を生成可能。128Kの大規模コンテキストウィンドウと多言語能力を備えています。
画像生成テキスト Transformers
G
google
1,358
9
Qwen2.5 VL 7B Instruct Gptqmodel Int8
MIT
Qwen2.5-VL-7B-Instructモデルに基づいてGPTQ-INT8量子化を行った視覚言語モデル
画像生成テキスト Transformers Supports Multiple Languages
Q
wanzhenchn
101
0
Gemma 3 12b It Qat Q4 0 Unquantized
Gemma 3はGoogleがGemini技術を基に開発した軽量オープンソースマルチモーダルモデルシリーズで、テキストと画像の入力を受け取りテキスト出力を生成します。12Bバージョンは指示チューニングと量子化対応トレーニング(QAT)を経ており、リソースが限られた環境での展開に適しています。
テキスト生成画像 Transformers
G
google
1,159
10
Google Gemma 3 27b It
Gemma 3はGoogleが開発した軽量で最先端のオープンモデルファミリーで、Geminiモデルと同じ研究と技術に基づいて構築されています。これはマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成することができます。
画像生成テキスト Transformers
G
context-labs
2,313
0
Gemma 3 27b It Qat Q4 0 Gguf
Gemma 3はGoogleが提供する軽量オープンソースのマルチモーダルモデルシリーズで、テキストと画像の入力をサポートし、テキスト出力を生成できます。このバージョンは270億パラメータのインストラクションチューニングモデルで、量子化認識トレーニング技術を採用し、メモリ要件が低いながらもオリジナル版に近い品質を維持しています。
画像生成テキスト
G
vinimuchulski
4,674
6
Vora 7B Instruct
VoRAは7Bパラメータの視覚-言語モデルで、画像テキストからテキストへの変換タスクに特化しています。
画像生成テキスト Transformers
V
Hon-Wong
154
12
Vora 7B Base
VoRAは7Bパラメータの視覚言語モデルで、画像とテキスト入力を処理し、テキスト出力を生成できます。
画像生成テキスト Transformers
V
Hon-Wong
62
4
Qwen2.5 VL 7B Instruct Q4 K M GGUF
Apache-2.0
これはQwen2.5-VL-7B-InstructモデルのGGUF量子化バージョンで、マルチモーダルタスクに適しており、画像とテキスト入力をサポートします。
画像生成テキスト English
Q
PatataAliena
69
1
Qwen2.5 VL 7B Instruct GGUF
Apache-2.0
Qwen2.5-VL-7B-Instruct はマルチモーダル視覚言語モデルで、画像理解とテキスト生成タスクをサポートします。
画像生成テキスト English
Q
Mungert
17.10k
10
Heron NVILA Lite 1B
Apache-2.0
NVILA-Liteアーキテクチャでトレーニングされた日本語視覚言語モデル、日本語と英語の画像テキストインタラクションをサポート
画像生成テキスト Safetensors Supports Multiple Languages
H
turing-motors
460
2
Qwen.qwen2.5 VL 72B Instruct GGUF
Qwen2.5-VL-72B-Instructは通義千問チームによって開発された大規模ビジュアル言語モデルで、画像とテキストのマルチモーダル理解と生成をサポートします。
画像生成テキスト
Q
DevQuasar
281
0
Gemma 3 27b It Int4 Awq
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究と技術に基づいています。27Bバージョンはマルチモーダルモデルで、テキストと画像の入力をサポートし、テキスト出力を生成します。
テキスト生成画像 Transformers
G
gaunernst
17.62k
16
Gemma 3 4b It Int4 Awq
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ研究技術に基づいて構築されています。Gemma 3はマルチモーダルモデルで、テキストと画像の入力を処理し、テキスト出力を生成できます。
テキスト生成画像 Transformers
G
gaunernst
1,054
1
Smoldocling 256M Preview Mlx Fp16
Apache-2.0
このモデルはds4sd/SmolDocling-256M-previewからMLX形式に変換された視覚言語モデルで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers English
S
ahishamm
24
1
Gemma 3 4b Pt Qat Q4 0 Gguf
Gemma 3はGoogleが提供する軽量オープンモデルシリーズで、Geminiと同じ技術を基に構築されており、マルチモーダル入力とテキスト出力をサポートします。
画像生成テキスト
G
google
912
16
Google.gemma 3 12b Pt GGUF
これはgoogle/gemma-3-12b-ptに基づく量子化バージョンのモデルで、量子化技術を通じて大規模モデルをより使いやすくすることを目的としています。
大規模言語モデル
G
DevQuasar
305
0
Gemma 3 27b It GGUF
Gemma-3-27b-it-GGUFはGoogleのGemma-3-27b-itモデルを量子化処理したバージョンで、画像テキストからテキストへのタスクに適しています。
テキスト生成画像 Transformers
G
second-state
2,024
0
Gemma 3 4b It GGUF
Gemma-3-4b-itはGoogleが発表した軽量級言語モデルで、Gemmaアーキテクチャに基づいており、テキスト生成タスクに適しています。
大規模言語モデル Transformers
G
gaianet
1,910
0
Gemma 3 27b It Mlx
これはGoogle Gemma 3 27B ITモデルを変換したMLXバージョンで、画像テキストからテキストへのタスクをサポートします。
画像生成テキスト Transformers
G
stephenwalker
24
1
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase