Cultureclip
基于CLIP-ViT-B/32微调的视觉语言模型,适用于图像-文本匹配任务
文本生成图像
Transformers

C
lukahh
20
0
Sail Clip Hendrix 10epochs
基于openai/clip-vit-large-patch14微调的视觉语言模型,经过10个epoch的训练
文本生成图像
Transformers

S
cringgaard
49
0
Mexma Siglip2
MIT
MEXMA-SigLIP2是一个结合了MEXMA多语言文本编码器和SigLIP2图像编码器的高性能CLIP模型,支持80种语言。
文本生成图像 支持多种语言
M
visheratin
224
4
Clip Vit Tiny Random Patch14 336
这是一个用于调试的小型CLIP模型,基于ViT架构,随机初始化权重。
文本生成图像
Transformers

C
yujiepan
14.47k
0
Longclip GmP ViT L 14
基于BeichenZhang/LongCLIP-L微调的CLIP模型,支持长文本输入(248词符),采用几何参数化(GmP)技术提升性能
文本生成图像
Transformers

L
zer0int
4,859
61
Video Llava
基于Vision Transformer架构的大规模视觉语言模型,支持图像与文本的跨模态理解
文本生成图像
V
AnasMohamed
194
0
Vilt Finetuned 200
Apache-2.0
基于ViLT架构的视觉语言模型,在特定任务上进行了微调
文本生成图像
Transformers

V
Atul8827
35
0
Clip Vit Large Patch14
OpenAI 开源的 CLIP 模型,基于 Vision Transformer (ViT) 架构,支持图像和文本的联合理解。
文本生成图像
Transformers

C
Xenova
17.41k
0
CLIP Giga Config Fixed
MIT
基于LAION-2B数据集训练的CLIP大模型,采用ViT-bigG-14架构,支持图文跨模态理解
文本生成图像
Transformers

C
Geonmo
109
1
Japanese Cloob Vit B 16
Apache-2.0
由rinna株式会社训练的日语CLOOB(对比留一增强)模型,用于图像与文本的跨模态理解
文本生成图像
Transformers 日语

J
rinna
229.51k
12
Clip Vit Large Patch14 336
基于Vision Transformer架构的大规模视觉语言预训练模型,支持图像与文本的跨模态理解
文本生成图像
Transformers

C
openai
5.9M
241
Clip Vit B 32 Japanese V1
这是一个适用于日语的CLIP文本/图像编码器模型,通过蒸馏技术将英语版CLIP模型转换为日语版本。
文本生成图像
Transformers 日语

C
sonoisa
690
21
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98