# 图像文本交互

Smolvlm Instruct GGUF
Apache-2.0
SmolVLM是一个紧凑的开源多模态模型,能够接受图像和文本输入并生成文本输出,专为高效设计,适用于设备端应用。
图像生成文本 Transformers 英语
S
Mungert
1,023
2
Gemma 3 4B It Qat GGUF
Google出品的Gemma 3 4B IT模型,支持多模态输入和长上下文处理,适用于文本生成和图像理解任务。
图像生成文本
G
lmstudio-community
46.55k
10
Gemma 3 27b It Int4 Gguf
Gemma 3是谷歌推出的轻量级尖端开放模型家族,基于与Gemini模型相同的研究技术构建。支持文本/图像输入与文本输出,提供预训练和指令调优两种权重版本。
图像生成文本
G
gaunernst
232
3
Qwen2.5 VL 32B Instruct GGUF
Apache-2.0
Qwen2.5-VL-32B-Instruct 是一个32B参数规模的多模态视觉语言模型,支持图像和文本的联合理解与生成任务。
图像生成文本 英语
Q
Mungert
9,766
6
Gemma 3 27b It Qat Q4 0 Gguf
Gemma是Google推出的轻量级开源多模态模型系列,支持文本和图像输入并生成文本输出,具有128K大上下文窗口和超过140种语言支持。
图像生成文本
G
google
69.29k
251
Qwen2 VL 2B Instruct
Apache-2.0
Qwen2-VL-2B-Instruct 是一个多模态视觉语言模型,支持图像文本到文本的任务。
图像生成文本 Transformers 英语
Q
FriendliAI
24
1
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像 Transformers
B
Salesforce
1.9M
154
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase