Vit Large Patch16 Siglip 512.v2 Webli
Apache-2.0
基于SigLIP 2的ViT图像编码器,专为timm设计,适用于视觉-语言任务
图像分类
Transformers

V
timm
295
0
Aimv2 Huge Patch14 448.apple Pt
AIMv2是一个基于timm库的图像编码器模型,采用超大尺寸补丁14_448架构,适用于图像特征提取任务。
图像分类
Transformers

A
timm
66
0
Vit Base Patch16 Siglip 256.webli I18n
Apache-2.0
基于SigLIP的ViT-B-16视觉Transformer模型,仅包含图像编码器,采用原始注意力池化
图像分类
Transformers

V
timm
16
0
Speecht5 Tts Hr
MIT
针对克罗地亚语优化的SpeechT5文本转语音微调模型,基于微软SpeechT5架构和VoxPopuli数据集训练
语音合成
Transformers 其他

S
nikolab
124
1
Speecht5 Asr
MIT
基于LibriSpeech数据集微调的SpeechT5自动语音识别模型,支持将语音转换为文本。
语音识别
Transformers

S
microsoft
12.30k
41
Xclip Base Patch16 Hmdb 8 Shot
MIT
X-CLIP是CLIP的扩展版本,用于通用视频-语言理解,通过对比学习在视频和文本对上训练,适用于视频分类和视频-文本检索任务。
文本生成视频
Transformers 英语

X
microsoft
17
1
Xclip Base Patch16 Hmdb 4 Shot
MIT
X-CLIP是CLIP的极简扩展,用于通用视频语言理解,通过(视频,文本)对的对比方式进行训练。
视频生成文本
Transformers 英语

X
microsoft
22
1
Unixcoder Base Nine
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,通过利用多模态数据(如代码注释和抽象语法树)来预训练代码表示。
多模态融合
Transformers 英语

U
microsoft
17.35k
19
Unixcoder Base
Apache-2.0
UniXcoder是一个统一的多模态预训练模型,利用代码注释和抽象语法树等多模态数据预训练代码表示。
多模态融合
Transformers 英语

U
microsoft
347.45k
51
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98