高精度图像理解

# 高精度图像理解

Clip Vitb16 Test Time Registers

基于OpenCLIP-ViT-B-16架构的视觉语言模型，通过引入测试时寄存器优化内部表示，解决特征图伪影问题

文本生成图像

LLaDA-V是一款基于扩散模型的视觉语言模型，性能超越其他扩散多模态大语言模型。

文本生成图像

Internvl3 8B Bf16

InternVL3-8B-bf16 是一个基于 MLX 格式转换的视觉语言模型，支持多语言图像文本到文本任务。

图像生成文本

Transformers 其他

Sarashina2 Vision 14b

Sarashina2-Vision-14B是由SB Intuitions开发的日本大型视觉语言模型，结合了Sarashina2-13B和Qwen2-VL-7B的图像编码器，在多个基准测试中表现优异。

图像生成文本

Transformers 支持多种语言

Convnext Xxlarge.clip Laion2b Soup

基于CLIP框架的ConvNeXt-XXLarge图像编码器，由LAION训练，适用于多模态任务

Resnet50x64 Clip.openai

基于OpenCLIP库的ResNet50x64架构的CLIP模型，支持零样本图像分类任务。

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg

基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型，采用OpenCLIP框架实现，是首个非ViT架构达到>79% ImageNet零样本准确率的CLIP模型

文本生成图像

CLIP Convnext Xxlarge Laion2b S34b B82k Augreg Soup

基于LAION-2B数据集训练的CLIP ConvNeXt-XXLarge模型，采用OpenCLIP框架训练，是首个非ViT图像塔CLIP模型实现>79% ImageNet top-1零样本准确率

文本生成图像

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

大型语言模型

Transformers 支持多种语言

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Transformers 英语

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

问答系统中文

AIbase

智启未来，您的人工智能解决方案智库

English 简体中文繁體中文にほんご

© 2025AIbase