# マルチモーダルテキスト生成

Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5は10億パラメータの視覚言語モデルで、画像テキスト生成タスクをサポートします。
テキスト生成画像
V
rootonchair
242
1
Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
これはMistral-Small-3.1-24B-Instruct-2503をベースにした視覚強化バージョンで、画像テキスト生成タスクをサポートしています。
画像生成テキスト
M
ggml-org
670
3
Gemma 3 4b It Int8 Asym Ov
Apache-2.0
OpenVINOで最適化されたGemma 3 4Bパラメータモデル、テキストからテキスト及び視覚テキスト推論をサポート
画像生成テキスト
G
Echo9Zulu
152
1
Gemma 3 1b It Qat Int4 Unquantized
GemmaはGoogleが提供する軽量で先進的なオープンモデルシリーズで、Geminiと同じ技術に基づいて構築されており、マルチモーダル入力とテキスト生成をサポートします。
大規模言語モデル Transformers
G
google
507
3
Llama 4 Scout 17b 16e It Gguf
その他
Meta Llamaの基礎モデルに基づいて構築された画像テキストからテキストへの変換モデルで、gguf-connectorとllama-cpp-pythonを通じたインタラクションをサポートします。
画像生成テキスト
L
chatpig
258
0
Gemma 3 4b It Llamafile
Gemma 3はGoogleが提供する軽量オープンソースモデルシリーズで、Gemini技術を基盤としており、マルチモーダル入力とテキスト出力をサポートします。
テキスト生成画像
G
Mozilla
751
3
Gemma 3 1b Pt Qat Q4 0 Gguf
GemmaはGoogleが提供する軽量で先進的なオープンモデルファミリーで、Geminiモデルと同じ研究技術に基づいています。1Bバージョンは事前学習済みベースモデルで、量子化認識トレーニング(QAT)を採用したGGUFフォーマットです。
画像生成テキスト
G
google
97
6
Gemma 3 4b It GGUF
Gemma-3-4b-it-GGUFはGoogleのGemma-3-4b-itモデルを量子化したバージョンで、LlamaEdge上で動作するようになっており、画像テキストからテキストへの変換タスクに適しています。
Transformers
G
second-state
2,120
0
Qwen2 VL 7B Latex OCR
Apache-2.0
Qwen2-VL-7Bモデルを基にしたファインチューニング版で、UnslothとHuggingface TRLライブラリを使用してトレーニングされ、推論速度が2倍向上しました。
テキスト生成画像 Transformers 英語
Q
erickrus
35
3
Llava NeXT Video 34B DPO
Llama 2 は Meta が開発した一連のオープンソース大規模言語モデルで、様々な自然言語処理タスクをサポートしています。
ビデオ生成テキスト Transformers
L
lmms-lab
214
10
Ko Deplot
Apache-2.0
ko-deplotはGoogleのPix2Structアーキテクチャに基づく韓国語視覚的質問応答モデルで、Deplotモデルを微調整してトレーニングされ、韓国語と英語のチャート画像質問応答タスクをサポートします。
画像生成テキスト Transformers 複数言語対応
K
nuua
252
5
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase