# 零樣本遷移

Cultureclip
基於CLIP-ViT-B/32微調的視覺語言模型,適用於圖像-文本匹配任務
文本生成圖像 Transformers
C
lukahh
20
0
Openvision Vit So400m Patch14 384
Apache-2.0
OpenVision是一個完全開放、經濟高效的高級視覺編碼器家族,用於多模態學習。
多模態融合
O
UCSC-VLAA
238
0
Openvision Vit So400m Patch14 224
Apache-2.0
OpenVision是一個完全開源、高性價比的先進視覺編碼器家族,專為多模態學習設計,性能匹配甚至超越OpenAI CLIP。
多模態融合 Transformers
O
UCSC-VLAA
41
0
Openvision Vit Base Patch16 160
Apache-2.0
OpenVision是一個完全開源、經濟高效的高級視覺編碼器家族,用於多模態學習。
多模態融合
O
UCSC-VLAA
15
0
Vica2 Init
Apache-2.0
ViCA2是一個多模態視覺語言模型,專注於視頻理解和視覺空間認知任務。
視頻生成文本 Transformers 英語
V
nkkbr
30
0
Vica2 Stage2 Onevision Ft
Apache-2.0
ViCA2是一個7B參數規模的多模態視覺語言模型,專注於視頻理解和視覺空間認知任務。
視頻生成文本 Transformers 英語
V
nkkbr
63
0
Blip Custom Captioning
Bsd-3-clause
BLIP是一個統一的視覺-語言預訓練框架,擅長圖像描述生成等視覺-語言任務
圖像生成文本
B
hiteshsatwani
78
0
Ipa Whisper Base
Apache-2.0
基於Whisper-base微調的多語言語音識別模型,支持國際音標(IPA)輸出
語音識別 支持多種語言
I
neurlang
599
6
Vit So400m Patch16 Siglip 256.v2 Webli
Apache-2.0
SigLIP 2 ViT模型,僅包含圖像編碼器部分,用於圖像特徵提取,基於WebLI數據集訓練。
文本生成圖像 Transformers
V
timm
12.56k
0
Vit So400m Patch14 Siglip 224.v2 Webli
Apache-2.0
基於SigLIP 2架構的視覺Transformer模型,專為圖像特徵提取設計,預訓練於webli數據集。
圖像分類 Transformers
V
timm
7,005
0
Vit Large Patch16 Siglip 384.v2 Webli
Apache-2.0
基於SigLIP 2架構的視覺Transformer模型,專為圖像特徵提取設計,預訓練於webli數據集
文本生成圖像 Transformers
V
timm
4,265
0
Vit Large Patch16 Siglip 256.v2 Webli
Apache-2.0
基於SigLIP 2架構的視覺Transformer模型,專為圖像特徵提取設計,訓練於webli數據集
圖像分類 Transformers
V
timm
525
0
Vit Giantopt Patch16 Siglip 384.v2 Webli
Apache-2.0
基於SigLIP 2的ViT圖像編碼器,專為timm設計,適用於視覺語言任務
圖像分類 Transformers
V
timm
160
0
Vit Base Patch16 Siglip Gap 256.v2 Webli
Apache-2.0
基於SigLIP 2的ViT圖像編碼器,採用全局平均池化,移除注意力池化頭,適用於圖像特徵提取。
多模態融合 Transformers
V
timm
114
1
Vit Base Patch16 Siglip 384.v2 Webli
Apache-2.0
基於SigLIP 2的視覺變換器模型,專為圖像特徵提取設計,使用webli數據集預訓練
文本生成圖像 Transformers
V
timm
330
0
Vit Base Patch16 Siglip 224.v2 Webli
Apache-2.0
基於SigLIP 2的ViT模型,專注於圖像特徵提取,使用webli數據集訓練
文本生成圖像 Transformers
V
timm
1,992
0
Blip Image Captioning Large
Bsd-3-clause
基於COCO數據集預訓練的視覺語言模型,擅長生成精準的圖像描述
圖像生成文本
B
drgary
23
1
Snowflake Arctic Embed M V2.0 Cpu
Apache-2.0
Snowflake Arctic Embed M v2.0 是一個多語言句子嵌入模型,專注於句子相似度任務,支持超過50種語言。
文本嵌入 Transformers 支持多種語言
S
cnmoro
502
3
Aimv2 3b Patch14 336.apple Pt
AIM-v2是一個基於timm庫的圖像編碼器模型,適用於圖像特徵提取任務。
圖像分類 Transformers
A
timm
35
0
Vit Huge Patch14 Clip 224.dfn5b
其他
基於CLIP架構的ViT-Huge圖像編碼器,由蘋果公司發佈的DFN5B-CLIP模型,適用於視覺特徵提取任務。
圖像分類 Transformers
V
timm
128
0
Convnext Large Mlp.clip Laion2b Ft Soup 320
Apache-2.0
基於CLIP架構的ConvNeXt-Large圖像編碼器,在LAION-2B數據集上微調,支持320x320分辨率圖像特徵提取
圖像分類 Transformers
C
timm
173
0
Convnext Large Mlp.clip Laion2b Augreg
Apache-2.0
基於CLIP框架的ConvNeXt-Large圖像編碼器,使用LAION-2B數據集訓練,支持視覺特徵提取
圖像分類 Transformers
C
timm
107
0
Vesselfm
其他
VesselFM 是一個基礎模型,用於在任意成像領域中實現通用的 3D 血管分割。
圖像分割
V
bwittmann
153
4
Cogact Small
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合 Transformers 英語
C
CogACT
405
4
Cogact Large
MIT
CogACT是一種基於視覺語言模型(VLM)衍生的新型高級視覺語言動作(VLA)架構,專為機器人操作設計。
多模態融合 Transformers 英語
C
CogACT
122
3
Cogact Base
MIT
CogACT是一種新型視覺語言動作(VLA)架構,結合視覺語言模型與專用動作模塊,用於機器人操作任務。
多模態融合 Transformers 英語
C
CogACT
6,589
12
Aimv2 Large Patch14 Native Image Classification
MIT
AIMv2-Large-Patch14-Native 是一個適配後的圖像分類模型,基於原始AIMv2模型修改,兼容Hugging Face Transformers的AutoModelForImageClassification類。
圖像分類 Transformers
A
amaye15
15
2
Paligemma2 3b Pt 224
PaliGemma 2是Google開發的視覺語言模型(VLM),結合了Gemma 2語言模型和SigLIP視覺模型的能力,支持多語言視覺語言任務。
圖像生成文本 Transformers
P
google
30.51k
148
Paligemma2 3b Ft Docci 448
PaliGemma 2是Google推出的升級版視覺語言模型,結合Gemma 2和SigLIP視覺模型的能力,支持多語言視覺語言任務。
圖像生成文本 Transformers
P
google
8,765
12
Sam2.1 Hiera Small
Apache-2.0
SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
7,333
6
Sam2.1 Hiera Large
Apache-2.0
SAM 2是FAIR研發的面向圖像與視頻可提示視覺分割的基礎模型,支持通過提示進行通用分割任務。
圖像分割
S
facebook
203.27k
81
Sam2 Hiera Base Plus
Apache-2.0
SAM 2是FAIR研發的面向圖像和視頻可提示視覺分割的基礎模型,支持通過提示進行高效分割。
圖像分割
S
facebook
18.17k
6
Cogflorence 2.1 Large
MIT
該模型是microsoft/Florence-2-large的微調版本,在Ejafa/ye-pop數據集的4萬張圖像子集上進行了訓練,標註由THUDM/cogvlm2-llama3-chat-19B生成,專注於圖像轉文本任務。
圖像生成文本 Transformers 支持多種語言
C
thwri
2,541
22
RADIO L
AM-RADIO是NVIDIA研究院開發的視覺基礎模型,採用聚合式架構實現多領域統一表徵,適用於各類計算機視覺任務。
圖像分割 Transformers
R
nvidia
23.27k
8
RADIO B
RADIO是由NVIDIA研究院開發的視覺基礎模型,能夠將不同領域的視覺信息統一表徵,適用於多種視覺任務。
圖像分割 Transformers
R
nvidia
999
3
E5 V
E5-V是基於多模態大語言模型的通用嵌入方法,能夠處理文本和圖像輸入並生成統一的嵌入表示。
多模態對齊 Transformers
E
royokong
5,619
22
Zcabnzh Bp
Bsd-3-clause
BLIP是一個統一的視覺語言預訓練框架,擅長圖像描述生成和視覺問答等任務,通過創新的數據過濾機制提升性能
圖像生成文本 Transformers
Z
nanxiz
19
0
Cogflorence 2 Large Freeze
MIT
這是microsoft/Florence-2-large模型的微調版本,在Ejafa/ye-pop數據集的38,000張圖像子集上訓練,使用CogVLM2生成標註,專注於圖像轉文本任務。
圖像生成文本 Transformers 支持多種語言
C
thwri
419
14
4M 21 B
其他
4M是一個通過標記化與掩碼技術實現多模態擴展的'任意到任意'基礎模型訓練框架
多模態融合
4
EPFL-VILAB
324
6
Emotion LLaMA
Apache-2.0
這是一個基於Apache-2.0許可證發佈的模型,具體信息暫不可知。
大型語言模型 Transformers
E
ZebangCheng
213
4
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase