# 多模態文本生成

Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5是一個10億參數的視覺語言模型,支持圖像文本生成任務。
文本生成圖像
V
rootonchair
242
1
Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
這是一個基於Mistral-Small-3.1-24B-Instruct-2503的視覺增強版本,支持圖像文本生成文本任務。
圖像生成文本
M
ggml-org
670
3
Gemma 3 4b It Int8 Asym Ov
Apache-2.0
基於OpenVINO優化的Gemma 3 4B參數模型,支持文本到文本及視覺文本推理
圖像生成文本
G
Echo9Zulu
152
1
Gemma 3 1b It Qat Int4 Unquantized
Gemma是Google推出的輕量級先進開放模型系列,基於與Gemini相同技術構建,支持多模態輸入和文本生成。
大型語言模型 Transformers
G
google
507
3
Llama 4 Scout 17b 16e It Gguf
其他
基於Meta Llama基礎模型構建的圖像文本到文本轉換模型,支持通過gguf-connector和llama-cpp-python進行交互。
圖像生成文本
L
chatpig
258
0
Gemma 3 4b It Llamafile
Gemma 3是Google推出的輕量級開源模型系列,基於Gemini技術構建,支持多模態輸入和文本輸出。
文本生成圖像
G
Mozilla
751
3
Gemma 3 1b Pt Qat Q4 0 Gguf
Gemma是谷歌推出的輕量級尖端開放模型家族,基於與Gemini模型相同的研究和技術構建。1B版本為預訓練基礎模型,採用量化感知訓練(QAT)的GGUF格式。
圖像生成文本
G
google
97
6
Gemma 3 4b It GGUF
Gemma-3-4b-it-GGUF 是對 Google 的 Gemma-3-4b-it 模型進行量化處理的版本,使其能在 LlamaEdge 上運行,適用於圖像文本到文本的轉換任務。
Transformers
G
second-state
2,120
0
Qwen2 VL 7B Latex OCR
Apache-2.0
基於Qwen2-VL-7B模型的微調版本,使用Unsloth和Huggingface TRL庫進行訓練,推理速度提升2倍。
文本生成圖像 Transformers 英語
Q
erickrus
35
3
Llava NeXT Video 34B DPO
Llama 2 是 Meta 開發的一系列開源大語言模型,支持多種自然語言處理任務。
視頻生成文本 Transformers
L
lmms-lab
214
10
Ko Deplot
Apache-2.0
ko-deplot是基於谷歌Pix2Struct架構的韓語視覺問答模型,通過微調Deplot模型訓練而成,支持韓語和英語的圖表圖像問答任務。
圖像生成文本 Transformers 支持多種語言
K
nuua
252
5
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase