Eurovlm 9B Preview
Apache-2.0
EuroVLM-9B-Preview是基于EuroLLM-9B长上下文版本的多模态视觉语言模型,支持多种语言和视觉任务,目前为预览版本。
图像生成文本
Transformers 支持多种语言

E
utter-project
156
2
Janus Pro 7B
MIT
Janus-Pro 是一种创新的自回归框架,统一了多模态理解与生成功能。通过解耦视觉编码路径,采用单一Transformer架构处理,解决了视觉编码器在理解与生成角色间的冲突。
文本生成图像
Transformers

J
deepseek-ai
139.64k
3,355
Paligemma2 28b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2语言模型和SigLIP视觉模型能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
116
48
Paligemma2 28b Mix 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像+文本输入,输出文本响应,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
198
26
Paligemma2 10b Pt 896
PaliGemma 2是Google推出的视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出
图像生成文本
Transformers

P
google
233
32
Paligemma2 10b Pt 448
PaliGemma 2是Google推出的升级版视觉语言模型(VLM),融合Gemma 2能力,支持图像和文本输入生成文本输出。
图像生成文本
Transformers

P
google
282
14
Paligemma2 3b Pt 448
PaliGemma 2是基于Gemma 2的视觉语言模型,支持图像和文本输入,生成文本输出,适用于多种视觉语言任务。
图像生成文本
Transformers

P
google
3,412
45
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升级版视觉语言模型,结合Gemma 2和SigLIP视觉模型的能力,支持多语言视觉语言任务。
图像生成文本
Transformers

P
google
8,765
12
Llama 3.1 8B Dragonfly V2
蜻蜓是基于Llama 3.1通过指令微调训练的多模态视觉语言模型,支持图像与文本的联合理解与生成
图像生成文本 英语
L
togethercomputer
113
1
Convllava JP 1.3b 1280
ConvLLaVA-JP是一款支持高分辨率输入的日语视觉语言模型,能够就输入图像进行对话。
图像生成文本
Transformers 日语

C
toshi456
31
1
Cogvlm2 Llama3 Chat 19B Int4
其他
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态对话模型,支持中英文,具备8K上下文长度和1344*1344分辨率图像处理能力。
文本生成图像
Transformers 英语

C
THUDM
467
28
360VL 70B
Apache-2.0
360VL是基于LLama3语言模型开发的开源大型多模态模型,具备强大的图像理解和双语文本支持能力。
文本生成图像
Transformers 支持多种语言

3
qihoo360
103
10
Cogvlm2 Llama3 Chinese Chat 19B
其他
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型,支持中英双语,具备强大的图像理解和对话能力。
文本生成图像
Transformers 英语

C
THUDM
118
68
Cogvlm2 Llama3 Chat 19B
其他
CogVLM2是基于Meta-Llama-3-8B-Instruct构建的多模态大模型,支持图像理解和对话任务,具有8K上下文长度和1344x1344图像分辨率处理能力。
文本生成图像
Transformers 英语

C
THUDM
7,805
212
360VL 8B
Apache-2.0
360VL是基于LLama3语言模型开发的多模态模型,具备强大的图像理解和双语对话能力。
文本生成图像
Transformers 支持多种语言

3
qihoo360
22
13
Paligemma 3b Pt 896
PaliGemma是一款多功能轻量级视觉语言模型(VLM),支持图像和文本输入,生成文本输出,具备多语言能力。
图像生成文本
Transformers

P
google
1,788
119
Paligemma 3b Ft Ocrvqa 448
PaliGemma是Google开发的多功能轻量级视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
图像生成文本
Transformers

P
google
365
6
Xgen Mm Phi3 Mini Base R V1
Apache-2.0
XGen-MM是Salesforce AI Research开发的最新多模态大模型系列,基于BLIP的成功设计,通过基础性增强实现了更强大、更优越的模型架构。
图像生成文本
Transformers 英语

X
Salesforce
240
18
Xgen Mm Phi3 Mini Instruct R V1
xGen-MM是Salesforce AI Research开发的最新基础大型多模态模型系列,基于BLIP系列改进,具有强大的图像理解和文本生成能力。
图像生成文本
Transformers 英语

X
Salesforce
804
186
Llava Llama 3 8b V1 1 Gguf
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336模型微调的多模态模型,支持图像理解和文本生成
图像生成文本
L
xtuner
9,484
216
Llava Llama 3 8b V1 1 Transformers
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像文本到文本任务
图像生成文本
L
xtuner
454.61k
78
Monkey
猴子模型是一种高效的大型多模态模型,通过提升图像分辨率和改进文本标签方法,在多个视觉任务中表现优异。
图像生成文本
Transformers

M
echo840
308
31
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98