# 高精度视觉问答

Gemma 3 12b It Qat 8bit
其他
基于Google Gemma 3 12B模型转换的8位量化版本,适用于图像文本到文本任务。
图像生成文本 Transformers 其他
G
mlx-community
149
1
Videorefer 7B Stage2.5
Apache-2.0
VideoRefer-7B是一个基于视频大语言模型的多模态模型,专注于时空物体理解任务。
文本生成视频 Transformers 英语
V
DAMO-NLP-SG
20
2
Qwen2 VL 72B Instruct GGUF
其他
Qwen2-VL-72B-Instruct的GGUF量化版本,支持多模态图像文本到文本转换,可通过LlamaEdge运行。
图像生成文本 Transformers 英语
Q
second-state
221
0
Llama 3.2V 11B Cot
Apache-2.0
Llama-3.2V-11B-cot 是一个能够进行自发、系统性推理的视觉语言模型,基于 LLaVA-CoT 框架开发。
图像生成文本 Transformers 英语
L
Xkev
5,089
151
Xgen Mm Phi3 Mini Base R V1.5
Apache-2.0
xGen-MM是由Salesforce AI Research开发的一系列最新基础大语言模型(LMMs),在BLIP系列基础上改进,融入增强功能,具有更强大的基础能力。
文本生成图像 Safetensors 英语
X
Salesforce
830
21
Xgen Mm Phi3 Mini Instruct Dpo R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的多模态基础模型系列,基于BLIP系列改进,在高质量图像字幕和交错图文数据上训练。
图像生成文本 英语
X
Salesforce
305
18
Xgen Mm Phi3 Mini Instruct Singleimg R V1.5
Apache-2.0
xGen-MM是Salesforce AI Research开发的一系列最新基础大型多模态模型,基于BLIP系列的成功设计进行了改进,提供更强大的多模态处理能力。
图像生成文本 Safetensors 英语
X
Salesforce
313
15
Internlm Xcomposer2 Vl 1 8b
其他
基于InternLM2的视觉-语言大模型,具备卓越的图文理解与创作能力
文本生成图像 Transformers
I
internlm
169
18
Internlm Xcomposer2 Vl 7b
其他
InternLM-XComposer2是基于InternLM2研发的视觉-语言大模型,具备卓越的图文理解与创作能力。
文本生成图像 Transformers
I
internlm
1,902
82
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase