🚀 transformers
transformers
庫引入了基於多模態自迴歸目標進行預訓練的AIMv2系列視覺模型。AIMv2預訓練簡單直接,易於訓練和有效擴展。該模型在多個多模態理解基準測試中表現出色,具有強大的識別性能。
🚀 快速開始
安裝
文檔中未提及安裝步驟,若要使用transformers
庫,可通過以下命令安裝:
pip install transformers
使用示例
基礎用法
以下是使用PyTorch
調用模型的示例代碼:
import requests
from PIL import Image
from transformers import AutoImageProcessor, AutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = AutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
高級用法
以下是使用JAX
調用模型的示例代碼:
import requests
from PIL import Image
from transformers import AutoImageProcessor, FlaxAutoModel
url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(url, stream=True).raw)
processor = AutoImageProcessor.from_pretrained(
"apple/aimv2-3B-patch14-336",
)
model = FlaxAutoModel.from_pretrained(
"apple/aimv2-3B-patch14-336",
trust_remote_code=True,
)
inputs = processor(images=image, return_tensors="jax")
outputs = model(**inputs)
✨ 主要特性
- 在大多數多模態理解基準測試中,性能優於OAI CLIP和SigLIP。
- 在開放詞彙目標檢測和指代表達理解任務中,性能優於DINOv2。
- AIMv2 - 3B模型在使用凍結主幹的情況下,在ImageNet上的識別準確率達到89.5%。
📚 詳細文檔
模型信息
屬性 |
詳情 |
庫名稱 |
transformers |
許可證 |
apple - amlr |
評估指標 |
accuracy |
任務類型 |
image - feature - extraction |
標籤 |
vision、image - feature - extraction、mlx、pytorch |
模型性能
模型aimv2 - 3B - patch14 - 336
在多個數據集上的分類準確率如下:
數據集名稱 |
數據集類型 |
準確率 |
是否驗證 |
imagenet - 1k |
imagenet - 1k |
89.2 |
false |
inaturalist - 18 |
inaturalist - 18 |
84.4 |
false |
cifar10 |
cifar10 |
99.5 |
false |
cifar100 |
cifar100 |
94.4 |
false |
food101 |
food101 |
97.2 |
false |
dtd |
dtd |
89.3 |
false |
oxford - pets |
oxford - pets |
97.2 |
false |
stanford - cars |
stanford - cars |
96.6 |
false |
camelyon17 |
camelyon17 |
93.2 |
false |
patch - camelyon |
patch - camelyon |
89.3 |
false |
rxrx1 |
rxrx1 |
8.8 |
false |
eurosat |
eurosat |
99.0 |
false |
fmow |
fmow |
65.7 |
false |
domainnet - infographic |
domainnet - infographic |
74.0 |
false |
引用信息
[AIMv2 Paper
] [BibTeX
]
如果您覺得我們的工作有用,請考慮引用以下內容:
@misc{fini2024multimodalautoregressivepretraininglarge,
author = {Fini, Enrico and Shukor, Mustafa and Li, Xiujun and Dufter, Philipp and Klein, Michal and Haldimann, David and Aitharaju, Sai and da Costa, Victor Guilherme Turrisi and Béthune, Louis and Gan, Zhe and Toshev, Alexander T and Eichner, Marcin and Nabi, Moin and Yang, Yinfei and Susskind, Joshua M. and El-Nouby, Alaaeldin},
url = {https://arxiv.org/abs/2411.14402},
eprint = {2411.14402},
eprintclass = {cs.CV},
eprinttype = {arXiv},
title = {Multimodal Autoregressive Pre-training of Large Vision Encoders},
year = {2024},
}
📄 許可證
本項目使用apple - amlr
許可證。