Taiyi-vit-87M-D開源視覺編碼器 - 基於特定數據集預訓練，實用圖像編碼功能

首頁

Taiyi Vit 87M D

由IDEA-CCNL開發

基於COCO和Visual Genome數據集進行特殊預訓練的英文版MAP視覺編碼器，採用ViT-base架構

圖像生成文本

Transformers

開源協議:Apache-2.0 #多模態預訓練 #圖像分類增強 #ViT架構優化

下載量 24

發布時間 : 5/4/2022

模型概述

該模型是基於CLIP-ViT-base架構的視覺編碼器，通過特殊訓練任務注入多模態信息，適用於圖像分類等視覺任務

模型特點

特殊預訓練方案

採用新型預訓練方法D，通過特殊訓練任務注入多模態信息

高性能表現

在CIFAR10和ImageNet1k等基準測試上優於原始CLIP-ViT-base模型

多模態表徵

預訓練數據來自MSCOCO和VG數據集，具備多模態理解能力

模型能力

圖像分類

視覺特徵提取

多模態表徵學習

使用案例

計算機視覺

圖像分類

對輸入圖像進行分類，支持ImageNet千分類任務

在ImageNet1k上達到82.4%準確率

視覺特徵提取

提取圖像的高層次視覺特徵，可用於下游任務

🚀 太乙視覺模型 Taiyi-vit-87M-D

太乙視覺模型 Taiyi-vit-87M-D 是在 COCO 和 VG 上進行特殊預訓練的視覺端 ViT-base 模型，為英文版的 MAP（名稱暫定）提供支持，在多模態任務中表現出色。

🚀 快速開始

你可以按照以下代碼示例快速使用太乙視覺模型 Taiyi-vit-87M-D：

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
model = ViTForImageClassification.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
# Predicted class: Egyptian cat

✨ 主要特性

基於 clip-vit-base (patch 16, resolution 224x224)，引入特殊訓練任務融入多模態信息。
"D" 代表新的預訓練方法，針對特殊多模態表徵設計了多種訓練目標。
在 CIFAR10 和 ImageNet1k 等下游任務中表現優於官方的 clip-vit-base-patch16-224。

📦 模型分類

屬性	詳情
需求	特殊
任務	多模態
系列	太乙
模型	待定
參數	89M
額外	特殊預訓練方法 D

📚 詳細文檔

模型信息

基於預訓練的 clip-vit-base (patch 16, resolution 224x224)，我們通過特殊的預訓練任務引入了一些多模態信息。"D" 表示這是一種新的預訓練方法。為了獲得特殊的多模態表徵，我們在論文中設計了幾種不同的訓練目標。預訓練數據集為 MSCOCO 和 VG。我們的代碼和預訓練任務的細節將在論文接受後公開。

下游任務表現

模型	CIFAR10	ImageNet1k
clip-vit-base-patch16-224 (官方)	96.2	80.2
Taiyi-vit-87M-D (本地)	98.7	82.4

本地測試設置如下：學習率 = 2e-5，批量大小 = 128，訓練輪數 = 5，權重衰減 = 0.01

📄 許可證

本項目採用 Apache-2.0 許可證。

📖 引用

如果您在您的工作中使用了我們的模型，可以引用我們的論文：

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

也可以引用我們的網站:

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}