# 跨模态预训练

Vit Large Patch16 Siglip 512.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,专为timm设计,适用于视觉-语言任务
图像分类 Transformers
V
timm
295
0
Aimv2 Huge Patch14 448.apple Pt
AIMv2是一个基于timm库的图像编码器模型,采用超大尺寸补丁14_448架构,适用于图像特征提取任务。
图像分类 Transformers
A
timm
66
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
基于SigLIP的ViT-B-16视觉Transformer模型,仅包含图像编码器,采用原始注意力池化
图像分类 Transformers
V
timm
16
0
Speecht5 Tts Hr
MIT
针对克罗地亚语优化的SpeechT5文本转语音微调模型,基于微软SpeechT5架构和VoxPopuli数据集训练
语音合成 Transformers 其他
S
nikolab
124
1
Speecht5 Asr
MIT
基于LibriSpeech数据集微调的SpeechT5自动语音识别模型,支持将语音转换为文本。
语音识别 Transformers
S
microsoft
12.30k
41
Xclip Base Patch16 Hmdb 8 Shot
MIT
X-CLIP是CLIP的扩展版本,用于通用视频-语言理解,通过对比学习在视频和文本对上训练,适用于视频分类和视频-文本检索任务。
文本生成视频 Transformers 英语
X
microsoft
17
1
Xclip Base Patch16 Hmdb 4 Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频语言理解,通过(视频,文本)对的对比方式进行训练。
视频生成文本 Transformers 英语
X
microsoft
22
1
Unixcoder Base Nine
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,通过利用多模态数据(如代码注释和抽象语法树)来预训练代码表示。
多模态融合 Transformers 英语
U
microsoft
17.35k
19
Unixcoder Base
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,利用代码注释和抽象语法树等多模态数据预训练代码表示。
多模态融合 Transformers 英语
U
microsoft
347.45k
51
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase