# 多模态视觉语言

Qwen2.5 VL 7B Instruct Gemlite Ao A8w8
Apache-2.0
这是一个经过A8W8量化的多模态大语言模型,基于Qwen2.5-VL-7B-Instruct,支持视觉和语言任务。
图像生成文本 Transformers
Q
mobiuslabsgmbh
161
1
Llava 1.5 13b Hf I1 GGUF
该项目提供了llava-1.5-13b-hf模型的加权/矩阵量化版本,包含多种量化类型选择,适用于不同场景下的使用需求。
文本生成图像 Transformers 英语
L
mradermacher
332
1
Spaceqwen2.5 VL 3B Instruct I1 GGUF
Apache-2.0
SpaceQwen2.5-VL-3B-Instruct是一个3B参数的视觉语言模型,专注于空间推理和多模态任务。
文本生成图像 英语
S
mradermacher
459
0
Qwen.qwen2.5 VL 72B Instruct GGUF
Qwen2.5-VL-72B-Instruct是通义千问团队开发的大规模视觉语言模型,支持图像和文本的多模态理解与生成。
图像生成文本
Q
DevQuasar
281
0
VLM R1 Qwen2.5VL 3B OVD 0321
Apache-2.0
基于Qwen2.5-VL-3B-Instruct的零样本目标检测模型,通过VLM-R1强化学习增强,支持开放词汇检测任务。
文本生成图像 英语
V
omlab
892
11
Eagle2 1B
鹰隼2号是一个高性能视觉语言模型家族,专注于数据策略和训练方案的透明性,旨在推动开源社区开发具有竞争力的视觉语言模型。
图像生成文本 Transformers 其他
E
nvidia
1,791
23
Eagle2 2B
Eagle2是NVIDIA推出的高性能视觉语言模型家族,专注于通过数据策略和训练方案提升开源视觉语言模型的性能。Eagle2-2B是该系列中的轻量级模型,在保持强劲性能的同时实现卓越效率和速度。
文本生成图像 Transformers 其他
E
nvidia
667
21
Qwen2 VL 7B GGUF
Apache-2.0
Qwen2-VL-7B 是一个视觉语言模型,提供多种量化版本的 GGUF 格式模型文件,适用于 llama.cpp 使用。
文本生成图像 Transformers 英语
Q
tensorblock
108
1
Qwen2 VL 2B GGUF
Apache-2.0
Qwen2-VL-2B 是一个视觉语言模型,提供 GGUF 格式的量化版本,适用于多种场景。
文本生成图像 Transformers 英语
Q
tensorblock
314
0
Minivla Libero90 Prismatic
MIT
MiniVLA是一个10亿参数规模的视觉语言模型,与棱镜视觉语言模型项目代码库兼容,适用于机器人技术和多模态任务。
图像生成文本 Transformers 英语
M
Stanford-ILIAD
127
0
Paligemma2 28b Mix 224
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型能力,支持多语言图像文本交互任务。
图像生成文本 Transformers
P
google
2,050
4
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本 Transformers
P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本 Transformers
P
google
282
14
Paligemma2 10b Pt 224
PaliGemma 2是一款视觉语言模型(VLM),结合了Gemma 2模型的能力,能够同时处理图像和文本输入,并生成文本输出,支持多种语言。适用于图像和短视频字幕、视觉问答、文本阅读、目标检测和目标分割等多种视觉语言任务。
图像生成文本 Transformers
P
google
3,362
8
Paligemma2 3b Pt 896
PaliGemma 2是一款多模态视觉语言模型,结合图像和文本输入生成文本输出,支持多语言,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
2,536
22
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
3,412
45
Paligemma2 3b Pt 224
PaliGemma 2是Google开发的视觉语言模型(VLM),结合了Gemma 2语言模型和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本 Transformers
P
google
30.51k
148
Paligemma2 10b Mix 224
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
701
7
Paligemma2 3b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像与文本输入,输出生成文本,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
20.55k
44
Paligemma2 10b Ft Docci 448
PaliGemma 2是Google推出的多功能视觉语言模型(VLM),结合图像和文本处理能力,支持多语言和多任务处理。
图像生成文本 Transformers
P
google
2,207
16
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本 Transformers
P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型,支持图像与文本的联合理解与生成
图像生成文本 英语
L
togethercomputer
113
1
Openvla V01 7b
MIT
OpenVLA v0.1 7B是一个开源视觉-语言-动作模型,基于Open X-Embodiment数据集训练,支持多种机器人控制。
文本生成图像 Transformers 英语
O
openvla
30
10
Paligemma 3b Ft Widgetcap 224
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言,在多种视觉语言任务中表现出色。
图像生成文本 Transformers
P
google
135
2
Paligemma 3b Ft Scicap 448
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言。
文本生成图像 Transformers
P
google
123
0
Paligemma 3b Ft Cococap 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持多语言输入输出,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
209
1
Paligemma 3b Pt 448
PaliGemma是一款轻量级多功能视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言图像文本交互任务。
图像生成文本 Transformers
P
google
2,708
29
Paligemma 3b Pt 896
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持图像和文本输入,生成文本输出,具备多语言能力。
图像生成文本 Transformers
P
google
1,788
119
Paligemma 3b Ft Nlvr2 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持多语言输入输出,擅长图像字幕、视觉问答等多种视觉语言任务。
文本生成图像 Transformers
P
google
2,056
1
Paligemma 3b Ft Nlvr2 448
PaliGemma是一款多功能且轻量级的视觉语言模型(VLM),支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
文本生成图像 Transformers
P
google
2,350
0
Paligemma 3b Ft Vqav2 224
PaliGemma是一款多功能轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言。
文本生成图像 Transformers
P
google
150
2
Paligemma 3b Ft Refcoco Seg 896
PaliGemma是Google开发的轻量级视觉语言模型,基于SigLIP视觉模型和Gemma语言模型构建,支持多语言文本生成和视觉理解任务。
图像生成文本 Transformers
P
google
20
6
Paligemma 3b Mix 224
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
文本生成图像 Transformers
P
google
143.03k
75
Paligemma 3b Ft Rsvqa Lr 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),结合图像和文本输入生成文本输出,支持多语言。
文本生成图像 Transformers
P
google
223
0
Paligemma 3b Pt 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,能同时处理图像和文本输入并生成文本输出。
图像生成文本 Transformers
P
google
38.40k
318
Paligemma 3b Ft Scicap 224
PaliGemma是一款轻量级视觉语言模型,结合图像和文本输入生成文本输出,支持多语言和多任务处理。
图像生成文本 Transformers
P
google
107
0
Paligemma 3b Ft Ocrvqa 896
PaliGemma是一款多功能轻量级视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本 Transformers
P
google
2,056
14
Paligemma 3b Ft Science Qa 224
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
文本生成图像 Transformers
P
google
113
1
Vitamin XL 384px
MIT
ViTamin-XL-384px 是一个基于 ViTamin 架构的大规模视觉语言模型,专为视觉语言任务设计,支持高分辨率图像处理和多模态特征提取。
图像生成文本 Transformers
V
jienengchen
104
20
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase