# 多模态文本生成

Vintern 1B V3 5 GGUF Ext
MIT
Vintern-1B-v3_5是一个10亿参数的视觉语言模型,支持图像文本生成任务。
文本生成图像
V
rootonchair
242
1
Mistral Small 3.1 24B Instruct 2503 GGUF
Apache-2.0
这是一个基于Mistral-Small-3.1-24B-Instruct-2503的视觉增强版本,支持图像文本生成文本任务。
图像生成文本
M
ggml-org
670
3
Gemma 3 4b It Int8 Asym Ov
Apache-2.0
基于OpenVINO优化的Gemma 3 4B参数模型,支持文本到文本及视觉文本推理
图像生成文本
G
Echo9Zulu
152
1
Gemma 3 1b It Qat Int4 Unquantized
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同技术构建,支持多模态输入和文本生成。
大型语言模型 Transformers
G
google
507
3
Llama 4 Scout 17b 16e It Gguf
其他
基于Meta Llama基础模型构建的图像文本到文本转换模型,支持通过gguf-connector和llama-cpp-python进行交互。
图像生成文本
L
chatpig
258
0
Gemma 3 4b It Llamafile
Gemma 3是Google推出的轻量级开源模型系列,基于Gemini技术构建,支持多模态输入和文本输出。
文本生成图像
G
Mozilla
751
3
Gemma 3 1b Pt Qat Q4 0 Gguf
Gemma是谷歌推出的轻量级尖端开放模型家族,基于与Gemini模型相同的研究和技术构建。1B版本为预训练基础模型,采用量化感知训练(QAT)的GGUF格式。
图像生成文本
G
google
97
6
Gemma 3 4b It GGUF
Gemma-3-4b-it-GGUF 是对 Google 的 Gemma-3-4b-it 模型进行量化处理的版本,使其能在 LlamaEdge 上运行,适用于图像文本到文本的转换任务。
图像文本到文本 Transformers
G
second-state
2,120
0
Qwen2 VL 7B Latex OCR
Apache-2.0
基于Qwen2-VL-7B模型的微调版本,使用Unsloth和Huggingface TRL库进行训练,推理速度提升2倍。
文本生成图像 Transformers 英语
Q
erickrus
35
3
Llava NeXT Video 34B DPO
Llama 2 是 Meta 开发的一系列开源大语言模型,支持多种自然语言处理任务。
视频生成文本 Transformers
L
lmms-lab
214
10
Ko Deplot
Apache-2.0
ko-deplot是基于谷歌Pix2Struct架构的韩语视觉问答模型,通过微调Deplot模型训练而成,支持韩语和英语的图表图像问答任务。
图像生成文本 Transformers 支持多种语言
K
nuua
252
5
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase