图像文本匹配

# 图像文本匹配

基于CLIP-ViT-B/32微调的视觉语言模型，适用于图像-文本匹配任务

文本生成图像

Sail Clip Hendrix 10epochs

基于openai/clip-vit-large-patch14微调的视觉语言模型，经过10个epoch的训练

文本生成图像

MEXMA-SigLIP2是一个结合了MEXMA多语言文本编码器和SigLIP2图像编码器的高性能CLIP模型，支持80种语言。

文本生成图像支持多种语言

Clip Vit Tiny Random Patch14 336

这是一个用于调试的小型CLIP模型，基于ViT架构，随机初始化权重。

文本生成图像

Longclip GmP ViT L 14

基于BeichenZhang/LongCLIP-L微调的CLIP模型，支持长文本输入（248词符），采用几何参数化(GmP)技术提升性能

文本生成图像

基于Vision Transformer架构的大规模视觉语言模型，支持图像与文本的跨模态理解

文本生成图像

Vilt Finetuned 200

基于ViLT架构的视觉语言模型，在特定任务上进行了微调

文本生成图像

Clip Vit Large Patch14

OpenAI 开源的 CLIP 模型，基于 Vision Transformer (ViT) 架构，支持图像和文本的联合理解。

文本生成图像

CLIP Giga Config Fixed

基于LAION-2B数据集训练的CLIP大模型，采用ViT-bigG-14架构，支持图文跨模态理解

文本生成图像

Japanese Cloob Vit B 16

由rinna株式会社训练的日语CLOOB（对比留一增强）模型，用于图像与文本的跨模态理解

文本生成图像

Transformers 日语

Clip Vit Large Patch14 336

基于Vision Transformer架构的大规模视觉语言预训练模型，支持图像与文本的跨模态理解

文本生成图像

Clip Vit B 32 Japanese V1

这是一个适用于日语的CLIP文本/图像编码器模型，通过蒸馏技术将英语版CLIP模型转换为日语版本。

文本生成图像

Transformers 日语

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase