🚀 太乙視覺模型 Taiyi-vit-87M-D
太乙視覺模型 Taiyi-vit-87M-D 是在 COCO 和 VG 上進行特殊預訓練的視覺端 ViT-base 模型,為英文版的 MAP(名稱暫定)提供支持,在多模態任務中表現出色。
🚀 快速開始
你可以按照以下代碼示例快速使用太乙視覺模型 Taiyi-vit-87M-D:
from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
model = ViTForImageClassification.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
✨ 主要特性
- 基於 clip-vit-base (patch 16, resolution 224x224),引入特殊訓練任務融入多模態信息。
- "D" 代表新的預訓練方法,針對特殊多模態表徵設計了多種訓練目標。
- 在 CIFAR10 和 ImageNet1k 等下游任務中表現優於官方的 clip-vit-base-patch16-224。
📦 模型分類
屬性 |
詳情 |
需求 |
特殊 |
任務 |
多模態 |
系列 |
太乙 |
模型 |
待定 |
參數 |
89M |
額外 |
特殊預訓練方法 D |
📚 詳細文檔
模型信息
基於預訓練的 clip-vit-base (patch 16, resolution 224x224),我們通過特殊的預訓練任務引入了一些多模態信息。"D" 表示這是一種新的預訓練方法。為了獲得特殊的多模態表徵,我們在論文中設計了幾種不同的訓練目標。預訓練數據集為 MSCOCO 和 VG。我們的代碼和預訓練任務的細節將在論文接受後公開。
下游任務表現
模型 |
CIFAR10 |
ImageNet1k |
clip-vit-base-patch16-224 (官方) |
96.2 |
80.2 |
Taiyi-vit-87M-D (本地) |
98.7 |
82.4 |
本地測試設置如下:
學習率 = 2e-5,
批量大小 = 128,
訓練輪數 = 5,
權重衰減 = 0.01
📄 許可證
本項目採用 Apache-2.0 許可證。
📖 引用
如果您在您的工作中使用了我們的模型,可以引用我們的論文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我們的網站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
相關鏈接