跨模态预训练

# 跨模态预训练

Vit Large Patch16 Siglip 512.v2 Webli

基于SigLIP 2的ViT图像编码器，专为timm设计，适用于视觉-语言任务

Aimv2 Huge Patch14 448.apple Pt

AIMv2是一个基于timm库的图像编码器模型，采用超大尺寸补丁14_448架构，适用于图像特征提取任务。

Vit Base Patch16 Siglip 256.webli I18n

基于SigLIP的ViT-B-16视觉Transformer模型，仅包含图像编码器，采用原始注意力池化

Speecht5 Tts Hr

针对克罗地亚语优化的SpeechT5文本转语音微调模型，基于微软SpeechT5架构和VoxPopuli数据集训练

Transformers 其他

基于LibriSpeech数据集微调的SpeechT5自动语音识别模型，支持将语音转换为文本。

Xclip Base Patch16 Hmdb 8 Shot

X-CLIP是CLIP的扩展版本，用于通用视频-语言理解，通过对比学习在视频和文本对上训练，适用于视频分类和视频-文本检索任务。

文本生成视频

Transformers 英语

Xclip Base Patch16 Hmdb 4 Shot

X-CLIP是CLIP的极简扩展，用于通用视频语言理解，通过(视频，文本)对的对比方式进行训练。

视频生成文本

Transformers 英语

Unixcoder Base Nine

UniXcoder是一个统一的多模态预训练模型，通过利用多模态数据（如代码注释和抽象语法树）来预训练代码表示。

多模态融合

Transformers 英语

UniXcoder是一个统一的多模态预训练模型，利用代码注释和抽象语法树等多模态数据预训练代码表示。

多模态融合

Transformers 英语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase