2025年最佳 1036 款文本生成圖像工具

Clip Vit Large Patch14 336
基於Vision Transformer架構的大規模視覺語言預訓練模型,支持圖像與文本的跨模態理解
文本生成圖像 Transformers
C
openai
5.9M
241
Fashion Clip
MIT
FashionCLIP是基於CLIP開發的視覺語言模型,專門針對時尚領域進行微調,能夠生成通用產品表徵。
文本生成圖像 Transformers 英語
F
patrickjohncyh
3.8M
222
Gemma 3 1b It
Gemma 3是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。該模型是多模態模型,能夠處理文本和圖像輸入並生成文本輸出。
文本生成圖像 Transformers
G
google
2.1M
347
Blip Vqa Base
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長視覺問答任務,通過語言-圖像聯合訓練實現多模態理解與生成能力
文本生成圖像 Transformers
B
Salesforce
1.9M
154
CLIP ViT H 14 Laion2b S32b B79k
MIT
基於OpenCLIP框架在LAION-2B英文數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索任務
文本生成圖像
C
laion
1.8M
368
CLIP ViT B 32 Laion2b S34b B79k
MIT
基於OpenCLIP框架在LAION-2B英語子集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
laion
1.1M
112
Pickscore V1
PickScore v1 是一個針對文本生成圖像的評分函數,可用於預測人類偏好、評估模型性能和圖像排序等任務。
文本生成圖像 Transformers
P
yuvalkirstain
1.1M
44
Owlv2 Base Patch16 Ensemble
Apache-2.0
OWLv2是一種零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像 Transformers
O
google
932.80k
99
Llama 3.2 11B Vision Instruct
Llama 3.2 是 Meta 發佈的多語言多模態大型語言模型,支持圖像文本到文本的轉換任務,具備強大的跨模態理解能力。
文本生成圖像 Transformers 支持多種語言
L
meta-llama
784.19k
1,424
Owlvit Base Patch32
Apache-2.0
OWL-ViT是一個零樣本文本條件目標檢測模型,可以通過文本查詢搜索圖像中的對象,無需特定類別的訓練數據。
文本生成圖像 Transformers
O
google
764.95k
129
Vit Base Patch16 Clip 224.openai
Apache-2.0
CLIP是由OpenAI開發的視覺-語言模型,通過對比學習訓練圖像和文本編碼器,支持零樣本圖像分類。
文本生成圖像 Transformers
V
timm
618.17k
7
CLIP ViT L 14 DataComp.XL S13b B90k
MIT
該模型是基於DataComp-1B數據集訓練的CLIP ViT-L/14模型,主要用於零樣本圖像分類和圖文檢索任務。
文本生成圖像
C
laion
586.75k
113
Florence 2 Large
MIT
Florence-2是微軟推出的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
文本生成圖像 Transformers
F
microsoft
579.23k
1,530
CLIP ViT Bigg 14 Laion2b 39B B160k
MIT
基於OpenCLIP框架在LAION-2B數據集上訓練的視覺-語言模型,支持零樣本圖像分類和跨模態檢索
文本生成圖像
C
laion
565.80k
261
Marqo Fashionsiglip
Apache-2.0
Marqo-FashionSigLIP 是一種多模態嵌入模型,專為時尚產品搜索優化,相比 FashionCLIP 在 MRR 和召回率上提升了57%。
文本生成圖像 Transformers 英語
M
Marqo
493.25k
44
Stable Diffusion 3.5 Medium
其他
基於改進型多模態擴散變換器(MMDiT-X)的文生圖模型,在圖像質量、文字排版、複雜提示詞理解和資源效率方面均有顯著提升
文本生成圖像 英語
S
stabilityai
426.00k
691
Cogview4 6B
Apache-2.0
CogView4-6B 是一個基於 GLM-4-9B 基礎模型的文生圖模型,支持中文和英文,能夠生成高質量的圖像。
文本生成圖像 支持多種語言
C
THUDM
333.85k
216
Florence 2 Base
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺和視覺語言任務。
文本生成圖像 Transformers
F
microsoft
316.74k
264
Sdxl Turbo
其他
SDXL-Turbo是一款快速的生成式文本到圖像模型,能夠通過單次網絡評估從文本提示生成逼真的圖像。
文本生成圖像
S
stabilityai
304.13k
2,385
Florence 2 Large Ft
MIT
Florence-2是微軟開發的先進視覺基礎模型,採用基於提示的方法處理廣泛的視覺與視覺-語言任務。
文本生成圖像 Transformers
F
microsoft
269.44k
349
Owlv2 Large Patch14 Ensemble
Apache-2.0
OWLv2是一個零樣本文本條件目標檢測模型,可通過文本查詢在圖像中定位對象。
文本生成圖像 Transformers
O
google
262.77k
25
CLIP ViT B 16 Laion2b S34b B88k
MIT
基於OpenCLIP框架訓練的多模態視覺語言模型,在LAION-2B英語數據集上訓練完成,支持零樣本圖像分類任務
文本生成圖像
C
laion
251.02k
33
Siglip Base Patch16 512
Apache-2.0
SigLIP是基於WebLi數據集預訓練的視覺-語言模型,採用改進的sigmoid損失函數,在圖像分類和圖文檢索任務中表現優異。
文本生成圖像 Transformers
S
google
237.79k
24
Japanese Cloob Vit B 16
Apache-2.0
由rinna株式會社訓練的日語CLOOB(對比留一增強)模型,用於圖像與文本的跨模態理解
文本生成圖像 Transformers 日語
J
rinna
229.51k
12
Plip
CLIP是一個多模態視覺語言模型,能夠將圖像和文本映射到共享的嵌入空間,實現零樣本圖像分類和跨模態檢索。
文本生成圖像 Transformers
P
vinid
177.58k
45
Clip Vit Base Patch32
OpenAI開發的CLIP模型,基於Vision Transformer架構,支持圖像與文本的聯合理解
文本生成圖像 Transformers
C
Xenova
177.13k
8
Siglip Base Patch16 256 Multilingual
Apache-2.0
SigLIP是基於WebLi數據集預訓練的改進版CLIP模型,採用Sigmoid損失函數優化圖像-文本匹配任務
文本生成圖像 Transformers
S
google
175.86k
44
Gemma 3 1b Pt
Gemma是Google推出的輕量級先進開放模型系列,基於與Gemini模型相同的研究和技術構建。
文本生成圖像 Transformers
G
google
171.13k
108
Hyperclovax SEED Vision Instruct 3B
其他
HyperCLOVAX-SEED-Vision-Instruct-3B是由NAVER開發的輕量化多模態模型,具備圖文理解和文本生成能力,特別優化了韓語處理能力。
文本生成圖像 Transformers
H
naver-hyperclovax
160.75k
170
Siglip2 So400m Patch16 Naflex
Apache-2.0
SigLIP 2 是基於 SigLIP 預訓練目標的改進模型,整合了多項技術以提升語義理解、定位和密集特徵提取能力。
文本生成圖像 Transformers
S
google
159.81k
21
Vit SO400M 14 SigLIP 384
Apache-2.0
基於WebLI數據集訓練的SigLIP(語言-圖像預訓練的Sigmoid損失)模型,適用於零樣本圖像分類任務。
文本生成圖像
V
timm
158.84k
79
Stable Diffusion 3.5 Large
其他
基於多模態擴散Transformer架構的文本生成圖像模型,在圖像質量、排版效果和複雜提示理解方面有顯著提升
文本生成圖像 英語
S
stabilityai
143.20k
2,715
Paligemma 3b Mix 224
PaliGemma是一款多功能、輕量級的視覺語言模型(VLM),基於SigLIP視覺模型和Gemma語言模型構建,支持圖像和文本輸入,輸出文本結果。
文本生成圖像 Transformers
P
google
143.03k
75
Janus Pro 7B
MIT
Janus-Pro 是一種創新的自迴歸框架,統一了多模態理解與生成功能。通過解耦視覺編碼路徑,採用單一Transformer架構處理,解決了視覺編碼器在理解與生成角色間的衝突。
文本生成圖像 Transformers
J
deepseek-ai
139.64k
3,355
Metaclip B32 400m
MetaCLIP基礎版模型是基於CommonCrawl數據訓練的視覺-語言模型,用於構建圖像-文本共享嵌入空間。
文本生成圖像 Transformers
M
facebook
135.37k
41
Stable Diffusion 3 Medium Diffusers
其他
Stability AI推出的多模態擴散變換器文生圖模型,在圖像質量、文字排版和複雜提示理解方面有顯著提升
文本生成圖像 英語
S
stabilityai
118.68k
391
Colqwen2 V1.0
Apache-2.0
ColQwen2是基於Qwen2-VL-2B-Instruct與ColBERT策略的視覺檢索模型,用於高效索引文檔的視覺特徵。
文本生成圖像 英語
C
vidore
106.85k
86
Vit SO400M 16 SigLIP2 384
Apache-2.0
基於WebLI數據集訓練的SigLIP 2視覺語言模型,支持零樣本圖像分類任務。
文本生成圖像
V
timm
106.30k
2
Mobileclip S2 OpenCLIP
MobileCLIP-S2 是一種高效的圖文模型,通過多模態強化訓練實現快速零樣本圖像分類。
文本生成圖像
M
apple
99.74k
6
Llava V1.5 13b
LLaVA 是一個開源多模態聊天機器人,基於 LLaMA/Vicuna 微調並整合視覺能力,支持圖像和文本的交互。
文本生成圖像 Transformers
L
liuhaotian
98.17k
499
Colpali V1.3
MIT
ColPali是基於PaliGemma-3B與ColBERT策略的視覺檢索模型,用於高效索引文檔的視覺特徵
文本生成圖像 英語
C
vidore
96.60k
40
Metaclip B16 Fullcc2.5b
MetaCLIP是應用於CommonCrawl數據的CLIP框架實現,旨在揭示CLIP訓練數據篩選方法
文本生成圖像 Transformers
M
facebook
90.78k
9
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase