2025年最佳的 1035 个文本生成图像工具

Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像 Transformers
C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基于CLIP开发的视觉语言模型,专门针对时尚领域进行微调,能够生成通用产品表征。
文本生成图像 Transformers 英语
F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。该模型是多模态模型,能够处理文本和图像输入并生成文本输出。
文本生成图像 Transformers
G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一个统一的视觉语言预训练框架,擅长视觉问答任务,通过语言-图像联合训练实现多模态理解与生成能力
文本生成图像 Transformers
B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基于OpenCLIP框架在LAION-2B英文数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索任务
文本生成图像
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基于OpenCLIP框架在LAION-2B英语子集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一个针对文本生成图像的评分函数,可用于预测人类偏好、评估模型性能和图像排序等任务。
文本生成图像 Transformers
P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一种零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像 Transformers
O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 发布的多语言多模态大型语言模型,支持图像文本到文本的转换任务,具备强大的跨模态理解能力。
文本生成图像 Transformers 支持多种语言
L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一个零样本文本条件目标检测模型,可以通过文本查询搜索图像中的对象,无需特定类别的训练数据。
文本生成图像 Transformers
O
google
764.95k
129
Vit Base Patch16 Clip 224.openai
Apache-2.0
CLIP是由OpenAI开发的视觉-语言模型,通过对比学习训练图像和文本编码器,支持零样本图像分类。
文本生成图像 Transformers
V
timm
618.17k
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
该模型是基于DataComp-1B数据集训练的CLIP ViT-L/14模型,主要用于零样本图像分类和图文检索任务。
文本生成图像
C
laion
586.75k
113
Florence 2 Large
MIT
Florence-2是微软推出的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
文本生成图像 Transformers
F
microsoft
579.23k
1,530
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
基于OpenCLIP框架在LAION-2B数据集上训练的视觉-语言模型,支持零样本图像分类和跨模态检索
文本生成图像
C
laion
565.80k
261
Marqo Fashionsiglip
Apache-2.0
Marqo-FashionSigLIP 是一种多模态嵌入模型,专为时尚产品搜索优化,相比 FashionCLIP 在 MRR 和召回率上提升了57%。
文本生成图像 Transformers 英语
M
Marqo
493.25k
44
Stable Diffusion 3.5 Medium
其他
基于改进型多模态扩散变换器(MMDiT-X)的文生图模型,在图像质量、文字排版、复杂提示词理解和资源效率方面均有显著提升
文本生成图像 英语
S
stabilityai
426.00k
691
Cogview4 6B
Apache-2.0
CogView4-6B 是一个基于 GLM-4-9B 基础模型的文生图模型,支持中文和英文,能够生成高质量的图像。
文本生成图像 支持多种语言
C
THUDM
333.85k
216
Florence 2 Base
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉和视觉语言任务。
文本生成图像 Transformers
F
microsoft
316.74k
264
Sdxl Turbo
其他
SDXL-Turbo是一款快速的生成式文本到图像模型,能够通过单次网络评估从文本提示生成逼真的图像。
文本生成图像
S
stabilityai
304.13k
2,385
Florence 2 Large Ft
MIT
Florence-2是微软开发的先进视觉基础模型,采用基于提示的方法处理广泛的视觉与视觉-语言任务。
文本生成图像 Transformers
F
microsoft
269.44k
349
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一个零样本文本条件目标检测模型,可通过文本查询在图像中定位对象。
文本生成图像 Transformers
O
google
262.77k
25
CLIP ViT B 16 Laion2b S34b B88k
MIT
基于OpenCLIP框架训练的多模态视觉语言模型,在LAION-2B英语数据集上训练完成,支持零样本图像分类任务
文本生成图像
C
laion
251.02k
33
Siglip Base Patch16 512
Apache-2.0
SigLIP是基于WebLi数据集预训练的视觉-语言模型,采用改进的sigmoid损失函数,在图像分类和图文检索任务中表现优异。
文本生成图像 Transformers
S
google
237.79k
24
Japanese Cloob Vit B 16
Apache-2.0
由rinna株式会社训练的日语CLOOB(对比留一增强)模型,用于图像与文本的跨模态理解
文本生成图像 Transformers 日语
J
rinna
229.51k
12
Plip
CLIP是一个多模态视觉语言模型,能够将图像和文本映射到共享的嵌入空间,实现零样本图像分类和跨模态检索。
文本生成图像 Transformers
P
vinid
177.58k
45
Clip Vit Base Patch32
OpenAI开发的CLIP模型,基于Vision Transformer架构,支持图像与文本的联合理解
文本生成图像 Transformers
C
Xenova
177.13k
8
Siglip Base Patch16 256 Multilingual
Apache-2.0
SigLIP是基于WebLi数据集预训练的改进版CLIP模型,采用Sigmoid损失函数优化图像-文本匹配任务
文本生成图像 Transformers
S
google
175.86k
44
Gemma 3 1b Pt
Gemma是Google推出的轻量级先进开放模型系列,基于与Gemini模型相同的研究和技术构建。
文本生成图像 Transformers
G
google
171.13k
108
Hyperclovax SEED Vision Instruct 3B
其他
HyperCLOVAX-SEED-Vision-Instruct-3B是由NAVER开发的轻量化多模态模型,具备图文理解和文本生成能力,特别优化了韩语处理能力。
文本生成图像 Transformers
H
naver-hyperclovax
160.75k
170
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基于 SigLIP 预训练目标的改进模型,整合了多项技术以提升语义理解、定位和密集特征提取能力。
文本生成图像 Transformers
S
google
159.81k
21
Vit SO400M 14 SigLIP 384
Apache-2.0
基于WebLI数据集训练的SigLIP(语言-图像预训练的Sigmoid损失)模型,适用于零样本图像分类任务。
文本生成图像
V
timm
158.84k
79
Stable Diffusion 3.5 Large
其他
基于多模态扩散Transformer架构的文本生成图像模型,在图像质量、排版效果和复杂提示理解方面有显著提升
文本生成图像 英语
S
stabilityai
143.20k
2,715
Paligemma 3b Mix 224
PaliGemma是一款多功能、轻量级的视觉语言模型(VLM),基于SigLIP视觉模型和Gemma语言模型构建,支持图像和文本输入,输出文本结果。
文本生成图像 Transformers
P
google
143.03k
75
Janus Pro 7B
MIT
Janus-Pro 是一种创新的自回归框架,统一了多模态理解与生成功能。通过解耦视觉编码路径,采用单一Transformer架构处理,解决了视觉编码器在理解与生成角色间的冲突。
文本生成图像 Transformers
J
deepseek-ai
139.64k
3,355
Metaclip B32 400m
MetaCLIP基础版模型是基于CommonCrawl数据训练的视觉-语言模型,用于构建图像-文本共享嵌入空间。
文本生成图像 Transformers
M
facebook
135.37k
41
Stable Diffusion 3 Medium Diffusers
其他
Stability AI推出的多模态扩散变换器文生图模型,在图像质量、文字排版和复杂提示理解方面有显著提升
文本生成图像 英语
S
stabilityai
118.68k
391
Colqwen2 V1.0
Apache-2.0
ColQwen2是基于Qwen2-VL-2B-Instruct与ColBERT策略的视觉检索模型,用于高效索引文档的视觉特征。
文本生成图像 英语
C
vidore
106.85k
86
Vit SO400M 16 SigLIP2 384
Apache-2.0
基于WebLI数据集训练的SigLIP 2视觉语言模型,支持零样本图像分类任务。
文本生成图像
V
timm
106.30k
2
Mobileclip S2 OpenCLIP
MobileCLIP-S2 是一种高效的图文模型,通过多模态强化训练实现快速零样本图像分类。
文本生成图像
M
apple
99.74k
6
Llava V1.5 13b
LLaVA 是一个开源多模态聊天机器人,基于 LLaMA/Vicuna 微调并整合视觉能力,支持图像和文本的交互。
文本生成图像 Transformers
L
liuhaotian
98.17k
499
Colpali V1.3
MIT
ColPali是基于PaliGemma-3B与ColBERT策略的视觉检索模型,用于高效索引文档的视觉特征
文本生成图像 英语
C
vidore
96.60k
40
Metaclip B16 Fullcc2.5b
MetaCLIP是应用于CommonCrawl数据的CLIP框架实现,旨在揭示CLIP训练数据筛选方法
文本生成图像 Transformers
M
facebook
90.78k
9
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase