Taiyi-vit-87M-D开源视觉编码器 - 基于特定数据集预训练，实用图像编码功能

首页

Taiyi Vit 87M D

由 IDEA-CCNL 开发

基于COCO和Visual Genome数据集进行特殊预训练的英文版MAP视觉编码器，采用ViT-base架构

图像生成文本

Transformers

开源协议:Apache-2.0 #多模态预训练 #图像分类增强 #ViT架构优化

下载量 24

发布时间 : 5/4/2022

模型简介

该模型是基于CLIP-ViT-base架构的视觉编码器，通过特殊训练任务注入多模态信息，适用于图像分类等视觉任务

模型特点

特殊预训练方案

采用新型预训练方法D，通过特殊训练任务注入多模态信息

高性能表现

在CIFAR10和ImageNet1k等基准测试上优于原始CLIP-ViT-base模型

多模态表征

预训练数据来自MSCOCO和VG数据集，具备多模态理解能力

模型能力

图像分类

视觉特征提取

多模态表征学习

使用案例

计算机视觉

图像分类

对输入图像进行分类，支持ImageNet千分类任务

在ImageNet1k上达到82.4%准确率

视觉特征提取

提取图像的高层次视觉特征，可用于下游任务

🚀 太乙视觉模型 Taiyi-vit-87M-D

太乙视觉模型 Taiyi-vit-87M-D 是在 COCO 和 VG 上进行特殊预训练的视觉端 ViT-base 模型，为英文版的 MAP（名称暂定）提供支持，在多模态任务中表现出色。

🚀 快速开始

你可以按照以下代码示例快速使用太乙视觉模型 Taiyi-vit-87M-D：

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
model = ViTForImageClassification.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
# Predicted class: Egyptian cat

✨ 主要特性

基于 clip-vit-base (patch 16, resolution 224x224)，引入特殊训练任务融入多模态信息。
"D" 代表新的预训练方法，针对特殊多模态表征设计了多种训练目标。
在 CIFAR10 和 ImageNet1k 等下游任务中表现优于官方的 clip-vit-base-patch16-224。

📦 模型分类

属性	详情
需求	特殊
任务	多模态
系列	太乙
模型	待定
参数	89M
额外	特殊预训练方法 D

📚 详细文档

模型信息

基于预训练的 clip-vit-base (patch 16, resolution 224x224)，我们通过特殊的预训练任务引入了一些多模态信息。"D" 表示这是一种新的预训练方法。为了获得特殊的多模态表征，我们在论文中设计了几种不同的训练目标。预训练数据集为 MSCOCO 和 VG。我们的代码和预训练任务的细节将在论文接受后公开。

下游任务表现

模型	CIFAR10	ImageNet1k
clip-vit-base-patch16-224 (官方)	96.2	80.2
Taiyi-vit-87M-D (本地)	98.7	82.4

本地测试设置如下：学习率 = 2e-5，批量大小 = 128，训练轮数 = 5，权重衰减 = 0.01

📄 许可证

本项目采用 Apache-2.0 许可证。

📖 引用

如果您在您的工作中使用了我们的模型，可以引用我们的论文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我们的网站:

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}