# 高精度图像理解

Clip Vitb16 Test Time Registers
基于OpenCLIP-ViT-B-16架构的视觉语言模型,通过引入测试时寄存器优化内部表示,解决特征图伪影问题
文本生成图像 Transformers
C
amildravid4292
517
0
Llada V
LLaDA-V是一款基于扩散模型的视觉语言模型,性能超越其他扩散多模态大语言模型。
文本生成图像 Safetensors
L
GSAI-ML
174
8
Internvl3 8B Bf16
其他
InternVL3-8B-bf16 是一个基于 MLX 格式转换的视觉语言模型,支持多语言图像文本到文本任务。
图像生成文本 Transformers 其他
I
mlx-community
96
1
Sarashina2 Vision 14b
MIT
Sarashina2-Vision-14B是由SB Intuitions开发的日本大型视觉语言模型,结合了Sarashina2-13B和Qwen2-VL-7B的图像编码器,在多个基准测试中表现优异。
图像生成文本 Transformers 支持多种语言
S
sbintuitions
192
6
Convnext Xxlarge.clip Laion2b Soup
Apache-2.0
基于CLIP框架的ConvNeXt-XXLarge图像编码器,由LAION训练,适用于多模态任务
图像分类 Transformers
C
timm
220
0
Resnet50x64 Clip.openai
MIT
基于OpenCLIP库的ResNet50x64架构的CLIP模型,支持零样本图像分类任务。
图像分类
R
timm
622
0
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架实现,是首个非ViT架构达到>79% ImageNet零样本准确率的CLIP模型
文本生成图像
C
laion
6,616
9
CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup
MIT
基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型,采用OpenCLIP框架训练,是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率
文本生成图像
C
laion
9,412
22
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase