Openvision Vit Base Patch16 384
Apache-2.0
OpenVision是一個完全開放、經濟高效的高級視覺編碼器家族,專注於多模態學習中的圖像特徵提取。
多模態融合
O
UCSC-VLAA
43
2
CLIP ViT L Rho50 K1 Constrained FARE2
MIT
基於openai/clip-vit-large-patch14微調的特徵提取模型,優化了圖像和文本編碼器
多模態融合
Transformers

C
LEAF-CLIP
253
0
Moonvit SO 400M
MIT
MoonViT是一款原生分辨率的視覺編碼器,基於SigLIP-SO-400M進行初始化和持續預訓練,適用於圖像特徵提取任務。
圖像增強
Transformers

M
moonshotai
275
12
Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型,在文檔理解和視覺問答任務中表現卓越。
文字識別
M
DeepGlint-AI
1,517
3
Vit Large Patch14 Clip 224.dfn2b
其他
基於CLIP架構的視覺變換器模型,專注於圖像特徵提取,由蘋果公司發佈。
圖像分類
Transformers

V
timm
178
0
Internvit 300M 448px V2 5
MIT
InternViT-300M-448px-V2_5是基於InternViT-300M-448px的重大升級版本,通過ViT增量學習和NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
文本生成圖像
I
OpenGVLab
23.29k
33
Internvit 6B 448px V1 0
MIT
InternViT-6B-448px-V1-0是一個視覺基礎模型,專注於圖像特徵提取,支持448x448分辨率,增強了OCR能力和中文對話支持。
文本生成圖像
Transformers

I
OpenGVLab
24
10
Coin Clip Vit Base Patch32
Apache-2.0
基於CLIP微調的硬幣圖像檢索模型,增強對硬幣圖像的特徵提取能力
圖像生成文本
Transformers

C
breezedeus
886
4
Eva02 Large Patch14 224.mim M38m
MIT
EVA02特徵/表示模型,通過掩碼圖像建模在Merged-38M數據集上預訓練,適用於圖像分類和特徵提取任務。
圖像分類
Transformers

E
timm
571
0
Taiyi CLIP RoBERTa 326M ViT H Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-large架構。
文本生成圖像
Transformers 中文

T
IDEA-CCNL
108
10
Taiyi CLIP Roberta Large 326M Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對預訓練,支持中文圖文特徵提取和零樣本分類
文本生成圖像
Transformers 中文

T
IDEA-CCNL
10.37k
39
Taiyi CLIP Roberta 102M Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-base架構。
文本生成圖像
Transformers 中文

T
IDEA-CCNL
558
51
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98