# 多模態特徵提取

Openvision Vit Base Patch16 384
Apache-2.0
OpenVision是一個完全開放、經濟高效的高級視覺編碼器家族,專注於多模態學習中的圖像特徵提取。
多模態融合
O
UCSC-VLAA
43
2
CLIP ViT L Rho50 K1 Constrained FARE2
MIT
基於openai/clip-vit-large-patch14微調的特徵提取模型,優化了圖像和文本編碼器
多模態融合 Transformers
C
LEAF-CLIP
253
0
Moonvit SO 400M
MIT
MoonViT是一款原生分辨率的視覺編碼器,基於SigLIP-SO-400M進行初始化和持續預訓練,適用於圖像特徵提取任務。
圖像增強 Transformers
M
moonshotai
275
12
Mlcd Vit Bigg Patch14 448
MIT
MLCD-ViT-bigG是一款採用二維旋轉位置編碼(RoPE2D)增強的先進視覺Transformer模型,在文檔理解和視覺問答任務中表現卓越。
文字識別
M
DeepGlint-AI
1,517
3
Vit Large Patch14 Clip 224.dfn2b
其他
基於CLIP架構的視覺變換器模型,專注於圖像特徵提取,由蘋果公司發佈。
圖像分類 Transformers
V
timm
178
0
Internvit 300M 448px V2 5
MIT
InternViT-300M-448px-V2_5是基於InternViT-300M-448px的重大升級版本,通過ViT增量學習和NTP損失提升了視覺特徵提取能力,特別擅長處理多語言OCR數據和數學圖表等複雜場景。
文本生成圖像
I
OpenGVLab
23.29k
33
Internvit 6B 448px V1 0
MIT
InternViT-6B-448px-V1-0是一個視覺基礎模型,專注於圖像特徵提取,支持448x448分辨率,增強了OCR能力和中文對話支持。
文本生成圖像 Transformers
I
OpenGVLab
24
10
Coin Clip Vit Base Patch32
Apache-2.0
基於CLIP微調的硬幣圖像檢索模型,增強對硬幣圖像的特徵提取能力
圖像生成文本 Transformers
C
breezedeus
886
4
Eva02 Large Patch14 224.mim M38m
MIT
EVA02特徵/表示模型,通過掩碼圖像建模在Merged-38M數據集上預訓練,適用於圖像分類和特徵提取任務。
圖像分類 Transformers
E
timm
571
0
Taiyi CLIP RoBERTa 326M ViT H Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-large架構。
文本生成圖像 Transformers 中文
T
IDEA-CCNL
108
10
Taiyi CLIP Roberta Large 326M Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對預訓練,支持中文圖文特徵提取和零樣本分類
文本生成圖像 Transformers 中文
T
IDEA-CCNL
10.37k
39
Taiyi CLIP Roberta 102M Chinese
Apache-2.0
首個開源的中文CLIP模型,基於1.23億圖文對進行預訓練,文本編碼器採用RoBERTa-base架構。
文本生成圖像 Transformers 中文
T
IDEA-CCNL
558
51
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase