🚀 太乙视觉模型 Taiyi-vit-87M-D
太乙视觉模型 Taiyi-vit-87M-D 是在 COCO 和 VG 上进行特殊预训练的视觉端 ViT-base 模型,为英文版的 MAP(名称暂定)提供支持,在多模态任务中表现出色。
🚀 快速开始
你可以按照以下代码示例快速使用太乙视觉模型 Taiyi-vit-87M-D:
from transformers import ViTFeatureExtractor, ViTForImageClassification
from PIL import Image
import requests
url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)
feature_extractor = ViTFeatureExtractor.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
model = ViTForImageClassification.from_pretrained('IDEA-CCNL/Taiyi-vit-87M-D')
inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
logits = outputs.logits
predicted_class_idx = logits.argmax(-1).item()
print("Predicted class:", model.config.id2label[predicted_class_idx])
✨ 主要特性
- 基于 clip-vit-base (patch 16, resolution 224x224),引入特殊训练任务融入多模态信息。
- "D" 代表新的预训练方法,针对特殊多模态表征设计了多种训练目标。
- 在 CIFAR10 和 ImageNet1k 等下游任务中表现优于官方的 clip-vit-base-patch16-224。
📦 模型分类
属性 |
详情 |
需求 |
特殊 |
任务 |
多模态 |
系列 |
太乙 |
模型 |
待定 |
参数 |
89M |
额外 |
特殊预训练方法 D |
📚 详细文档
模型信息
基于预训练的 clip-vit-base (patch 16, resolution 224x224),我们通过特殊的预训练任务引入了一些多模态信息。"D" 表示这是一种新的预训练方法。为了获得特殊的多模态表征,我们在论文中设计了几种不同的训练目标。预训练数据集为 MSCOCO 和 VG。我们的代码和预训练任务的细节将在论文接受后公开。
下游任务表现
模型 |
CIFAR10 |
ImageNet1k |
clip-vit-base-patch16-224 (官方) |
96.2 |
80.2 |
Taiyi-vit-87M-D (本地) |
98.7 |
82.4 |
本地测试设置如下:
学习率 = 2e-5,
批量大小 = 128,
训练轮数 = 5,
权重衰减 = 0.01
📄 许可证
本项目采用 Apache-2.0 许可证。
📖 引用
如果您在您的工作中使用了我们的模型,可以引用我们的论文:
@article{fengshenbang,
author = {Jiaxing Zhang and Ruyi Gan and Junjie Wang and Yuxiang Zhang and Lin Zhang and Ping Yang and Xinyu Gao and Ziwei Wu and Xiaoqun Dong and Junqing He and Jianheng Zhuo and Qi Yang and Yongfeng Huang and Xiayu Li and Yanghan Wu and Junyu Lu and Xinyu Zhu and Weifeng Chen and Ting Han and Kunhao Pan and Rui Wang and Hao Wang and Xiaojun Wu and Zhongshen Zeng and Chongpei Chen},
title = {Fengshenbang 1.0: Being the Foundation of Chinese Cognitive Intelligence},
journal = {CoRR},
volume = {abs/2209.02970},
year = {2022}
}
也可以引用我们的网站:
@misc{Fengshenbang-LM,
title={Fengshenbang-LM},
author={IDEA-CCNL},
year={2021},
howpublished={\url{https://github.com/IDEA-CCNL/Fengshenbang-LM}},
}
相关链接