Clip Vitb16 Test Time Registers
基于OpenCLIP-ViT-B-16架构的视觉语言模型,通过引入测试时寄存器优化内部表示,解决特征图伪影问题
文本生成图像
Transformers

C
amildravid4292
517
0
Llada V
LLaDA-V是一款基于扩散模型的视觉语言模型,性能超越其他扩散多模态大语言模型。
文本生成图像
Safetensors
L
GSAI-ML
174
8
Internvl3 8B Bf16
其他
InternVL3-8B-bf16 是一个基于 MLX 格式转换的视觉语言模型,支持多语言图像文本到文本任务。
图像生成文本
Transformers 其他

I
mlx-community
96
1
Sarashina2 Vision 14b
MIT
Sarashina2-Vision-14B是由SB Intuitions开发的日本大型视觉语言模型,结合了Sarashina2-13B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本
Transformers 支持多种语言

S
sbintuitions
192
6
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
基于CLIP框架的ConvNeXt-XXLarge图像编码器,由LAION训练,适用于多模态任务
图像分类
Transformers

C
timm
220
0
Resnet50x64 Clip.openai
MIT
基于OpenCLIP库的ResNet50x64架构的CLIP模型,支持零样本图像分类任务。
图像分类
R
timm
622
0
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,是首个非ViT架构达到>79% ImageNet零样本准确率的CLIP模型
文本生成图像
C
laion
6,616
9
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架训练,是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率
文本生成图像
C
laion
9,412
22
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98