Clip Vit Large Patch14
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习将图像和文本映射到共享的嵌入空间,支持零样本图像分类
图像生成文本
C
openai
44.7M
1,710
Clip Vit Base Patch32
CLIP是由OpenAI开发的多模态模型,能够理解图像和文本之间的关系,支持零样本图像分类任务。
图像生成文本
C
openai
14.0M
666
Siglip So400m Patch14 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的sigmoid损失函数,优化了图像-文本匹配任务。
图像生成文本
Transformers

S
google
6.1M
526
Clip Vit Base Patch16
CLIP是由OpenAI开发的多模态模型,通过对比学习将图像和文本映射到共享的嵌入空间,实现零样本图像分类能力。
图像生成文本
C
openai
4.6M
119
Blip Image Captioning Base
Bsd-3-clause
BLIP是一个先进的视觉-语言预训练模型,擅长图像描述生成任务,支持条件式和非条件式文本生成。
图像生成文本
Transformers

B
Salesforce
2.8M
688
Blip Image Captioning Large
Bsd-3-clause
BLIP是一个统一的视觉-语言预训练框架,擅长图像描述生成任务,支持条件式和无条件式图像描述生成。
图像生成文本
Transformers

B
Salesforce
2.5M
1,312
Openvla 7b
MIT
OpenVLA 7B是一个基于Open X-Embodiment数据集训练的开源视觉-语言-动作模型,能够根据语言指令和摄像头图像生成机器人动作。
图像生成文本
Transformers 英语

O
openvla
1.7M
108
Llava V1.5 7b
LLaVA 是一款开源多模态聊天机器人,基于 LLaMA/Vicuna 微调,支持图文交互。
图像生成文本
Transformers

L
liuhaotian
1.4M
448
Vit Gpt2 Image Captioning
Apache-2.0
这是一个基于ViT和GPT2架构的图像描述生成模型,能够为输入图像生成自然语言描述。
图像生成文本
Transformers

V
nlpconnect
939.88k
887
Blip2 Opt 2.7b
MIT
BLIP-2是一个视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本的生成任务。
图像生成文本
Transformers 英语

B
Salesforce
867.78k
359
Siglip2 So400m Patch14 384
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的视觉语言模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
图像生成文本
Transformers

S
google
622.54k
20
Gemma 3 4b It
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini相同的研究和技术构建。Gemma 3是多模态模型,能处理文本和图像输入并生成文本输出。
图像生成文本
Transformers

G
google
608.22k
477
Llava Llama 3 8b V1 1 Transformers
基于Meta-Llama-3-8B-Instruct和CLIP-ViT-Large-patch14-336微调的LLaVA模型,支持图像文本到文本任务
图像生成文本
L
xtuner
454.61k
78
Phi 3.5 Vision Instruct
MIT
Phi-3.5-vision 是一款轻量级、前沿的开放多模态模型,支持128K上下文长度,专注于高质量、富含推理的文本和视觉数据。
图像生成文本
Transformers 其他

P
microsoft
397.38k
679
Gemma 3 27b It
Gemma是Google推出的轻量级前沿开放模型系列,基于与Gemini相同技术构建,支持多模态输入和文本输出。
图像生成文本
Transformers

G
google
371.46k
1,274
Git Base
MIT
GIT是一个基于CLIP图像标记和文本标记的双条件Transformer解码器,用于图像到文本的生成任务。
图像生成文本
Transformers 支持多种语言

G
microsoft
365.74k
93
Gemma 3 12b It
Gemma是Google推出的轻量级前沿开源多模态模型系列,基于创建Gemini模型的技术构建,支持文本和图像输入并生成文本输出。
图像生成文本
Transformers

G
google
364.65k
340
Siglip Base Patch16 224
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉语言模型,采用改进的Sigmoid损失函数,优化了图像-文本匹配任务
图像生成文本
Transformers

S
google
250.28k
43
Siglip Large Patch16 384
Apache-2.0
SigLIP是基于WebLi数据集预训练的多模态模型,采用改进的Sigmoid损失函数,适用于零样本图像分类和图文检索任务。
图像生成文本
Transformers

S
google
245.21k
6
Blip2 Opt 6.7b Coco
MIT
BLIP-2是一种视觉语言模型,结合了图像编码器和大型语言模型,用于图像到文本生成和视觉问答任务。
图像生成文本
Transformers 英语

B
Salesforce
216.79k
33
Trocr Base Handwritten
MIT
TrOCR是一种基于Transformer的光学字符识别模型,专门用于手写文本识别。
图像生成文本
Transformers

T
microsoft
206.74k
405
Moondream2
Apache-2.0
Moondream 是一款轻量级视觉语言模型,专为高效全平台运行设计。
图像生成文本
M
vikhyatk
184.93k
1,120
Kosmos 2 Patch14 224
MIT
Kosmos-2是一个多模态大语言模型,能够理解和生成与图像相关的文本描述,并实现文本与图像区域的关联。
图像生成文本
Transformers

K
microsoft
171.99k
162
Donut Base Finetuned Docvqa
MIT
Donut是一种无需OCR的文档理解Transformer模型,基于DocVQA数据集微调,能够直接从图像中提取和理解文本信息。
图像生成文本
Transformers

D
naver-clova-ix
167.80k
231
Biomedclip PubMedBERT 256 Vit Base Patch16 224
MIT
BiomedCLIP是一个生物医学视觉语言基础模型,通过对比学习在PMC-15M数据集上进行预训练,支持跨模态检索、图像分类和视觉问答等任务。
图像生成文本 英语
B
microsoft
137.39k
296
Donut Base Finetuned Rvlcdip
MIT
Donut是一种无需OCR的文档理解Transformer模型,结合视觉编码器和文本解码器处理文档图像。
图像生成文本
Transformers

D
naver-clova-ix
125.36k
13
Minicpm V 2 6 Int4
MiniCPM-V 2.6是一个多模态视觉语言模型,支持图像文本到文本的转换,具备多语言处理能力。
图像生成文本
Transformers 其他

M
openbmb
122.58k
79
Blip2 Flan T5 Xl
MIT
BLIP-2是基于Flan T5-xl的视觉语言模型,通过冻结图像编码器和大型语言模型进行预训练,支持图像描述生成和视觉问答等任务。
图像生成文本
Transformers 英语

B
Salesforce
91.77k
68
Minicpm V 2 6
MiniCPM-V是一个手机端GPT-4V级多模态大语言模型,支持单图、多图与视频理解,具备视觉、光学字符识别等功能。
图像生成文本
Transformers 其他

M
openbmb
91.52k
969
H2ovl Mississippi 2b
Apache-2.0
H2OVL-Mississippi-2B是由H2O.ai开发的高性能通用视觉语言模型,能够处理广泛的多模态任务。该模型拥有20亿参数,在图像描述、视觉问答(VQA)和文档理解等任务中表现出色。
图像生成文本
Transformers 英语

H
h2oai
91.28k
34
Clip Flant5 Xxl
Apache-2.0
基于google/flan-t5-xxl微调的视觉语言生成模型,专为图像文本检索任务设计
图像生成文本
Transformers 英语

C
zhiqiulin
86.23k
2
Florence 2 SD3 Captioner
Apache-2.0
Florence-2-SD3-Captioner 是一个基于 Florence-2 架构的图像描述生成模型,专门用于生成高质量的图像描述文本。
图像生成文本
Transformers 支持多种语言

F
gokaygokay
80.06k
34
H2ovl Mississippi 800m
Apache-2.0
H2O.ai推出的8亿参数视觉语言模型,专注于OCR和文档理解,性能优异
图像生成文本
Transformers 英语

H
h2oai
77.67k
33
Moondream1
16亿参数的多模态模型,融合SigLIP与Phi-1.5技术架构,支持图像理解和问答任务
图像生成文本
Transformers 英语

M
vikhyatk
70.48k
487
Gemma 3 27b It Qat Q4 0 Gguf
Gemma是Google推出的轻量级开源多模态模型系列,支持文本和图像输入并生成文本输出,具有128K大上下文窗口和超过140种语言支持。
图像生成文本
G
google
69.29k
251
Smolvlm2 2.2B Instruct
Apache-2.0
SmolVLM2-2.2B 是一款轻量级多模态模型,专为分析视频内容而设计,可处理视频、图像和文本输入并生成文本输出。
图像生成文本
Transformers 英语

S
HuggingFaceTB
62.56k
164
Pix2struct Tiny Random
MIT
这是一个基于MIT许可证的图像转文本模型,能够将图像内容转换为描述性文本。
图像生成文本
Transformers

P
fxmarty
60.87k
2
Florence 2 Base Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
图像生成文本
Transformers

F
microsoft
56.78k
110
Gemma 3 4b Pt
Gemma是Google推出的一系列轻量级、最先进的开放模型,基于与创建Gemini模型相同的研究和技术构建。
图像生成文本
Transformers

G
google
55.03k
68
Gemma 3 12b Pt
Gemma是Google推出的轻量级开源多模态模型系列,基于与Gemini相同技术构建,支持文本和图像输入并生成文本输出。
图像生成文本
Transformers

G
google
54.36k
46
Chexpert Mimic Cxr Findings Baseline
MIT
这是一个基于VisionEncoderDecoder架构的医学影像报告生成模型,专门用于从胸部X光图像生成放射学报告文本。
图像生成文本
Transformers 英语

C
IAMJB
53.27k
1
Chexpert Mimic Cxr Impression Baseline
MIT
这是一个基于胸部X光图像的文本生成模型,能够根据医学影像生成放射学印象报告。
图像生成文本
Transformers 英语

C
IAMJB
52.87k
0
- 1
- 2
- 3
- 4
- 5
- 6
- 10