Taiyi-vit-87M-Dオープンソースビジュアルエンコーダ - 特定のデータセットに基づいて事前学習し、実用的な画像エンコーディング機能を備える

ホーム

Taiyi Vit 87M D

IDEA-CCNLによって開発

COCOとVisual Genomeデータセットを使用した特別な事前学習を行った英語版MAPビジュアルエンコーダー、ViT-baseアーキテクチャを採用

画像生成テキスト

Transformers

オープンソースライセンス:Apache-2.0 #マルチモーダル事前学習 #画像分類の強化 #ViTアーキテクチャの最適化

ダウンロード数 24

リリース時間 : 5/4/2022

モデル概要

このモデルはCLIP-ViT-baseアーキテクチャに基づくビジュアルエンコーダーで、特別な学習タスクを通じてマルチモーダル情報を注入し、画像分類などの視覚タスクに適しています

モデル特徴

特別な事前学習手法

新しい事前学習方法Dを採用し、特別な学習タスクを通じてマルチモーダル情報を注入

高性能

CIFAR10やImageNet1kなどのベンチマークテストで元のCLIP-ViT-baseモデルを上回る性能

マルチモーダル表現

MSCOCOとVGデータセットからの事前学習データにより、マルチモーダル理解能力を備えている

モデル能力

画像分類

視覚的特徴抽出

マルチモーダル表現学習

使用事例

コンピュータビジョン

画像分類

入力画像を分類し、ImageNetの1000クラス分類タスクをサポート

ImageNet1kで82.4%の精度を達成

視覚的特徴抽出

画像の高レベルな視覚的特徴を抽出し、下流タスクに利用可能

🚀 Taiyi-vit-87M-D

Taiyi-vit-87M-Dは、COCOとVG上で特殊な事前学習を行った、英語版のMAP（仮称）のビジュアルエンコーダで、ViT-baseをベースにしています。

メインページ: Fengshenbang
Github: Fengshenbang-LM

🚀 クイックスタート

Taiyi-vit-87M-Dは、COCOとVG上で特殊な事前学習を行ったビジュアルエンコーダです。以下に使用例を示します。

✨ 主な機能

COCOとVG上で特殊な事前学習を行った、英語版のMAP（仮称）のビジュアルエンコーダ。
clip-vit-baseをベースに、特殊な事前学習タスクを用いて多モーダル情報を導入。

📚 ドキュメント

モデル分類

属性	詳細
モデルタイプ	特殊な多モーダルモデル
シリーズ	太乙 Taiyi
モデル	待定 TBD
パラメータ	89M
追加情報	特殊な事前学習方法 D

モデル情報

clip-vit-base (patch 16, resolution 224x224)をベースに、特殊な事前学習タスクを用いて多モーダル情報を導入しています。"D"は新しい事前学習方法を示しています。特殊な多モーダル表現のために、論文ではいくつかの異なる訓練目標を設計しています。事前学習データセットはMSCOCOとVGです。コードと事前学習タスクの詳細は、論文が受理された後に公開されます。

下流タスクの性能

	CIFAR10	ImageNet1k
clip-vit-base-patch16-224 (公式)	96.2	80.2
Taiyi-vit-87M-D (ローカル)	98.7	82.4

ローカルテストの設定は以下の通りです。

学習率 = 2e-5, バッチサイズ = 128, 学習エポック数 = 5, 重み減衰 = 0.01

💻 使用例

基本的な使用法

from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

feature_extractor = ViTFeatureExtractor.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
model = ViTForImageClassification.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
# model predicts one of the 1000 ImageNet classes
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
# Predicted class: Egyptian cat

📄 ライセンス

このモデルはApache-2.0ライセンスの下で公開されています。

引用

もしあなたの研究でこのモデルを使用した場合は、以下の論文を引用してください。

@article{fengshenbang,
  author    = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
  title     = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
  journal   = {CoRR},
  volume    = {abs/2209.02970},
  year      = {2022}
}

また、以下のウェブサイトも引用することができます。

@misc{Fengshenbang-LM,
  title={Fengshenbang-LM},
  author={IDEA-CCNL},
  year={2021},
  howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}