vit-large-patch16-224-in21k開源視覺模型 - 免費用於圖像特徵提取及任務微調

首頁

Vit Large Patch16 224 In21k

由google開發

基於ImageNet-21k數據集預訓練的視覺Transformer模型，適用於圖像特徵提取和下游任務微調。

圖像分類開源協議:Apache-2.0 #ImageNet-21k預訓練 #224x224分辨率 #圖像嵌入提取

下載量 92.63k

發布時間 : 3/2/2022

模型概述

該模型是一種類似於BERT的Transformer編碼器，通過監督學習在ImageNet-21k數據集上預訓練而成，主要用於圖像特徵提取和分類任務。

模型特點

基於ImageNet-21k預訓練

在包含1400萬張圖像和21,843個類別的ImageNet-21k數據集上預訓練，具有強大的特徵提取能力。

16x16圖像塊分割

將圖像分割為固定大小的16x16像素塊，並通過線性嵌入輸入Transformer編碼器。

包含預訓練池化器

模型包含預訓練的池化器，可直接用於下游任務的特徵提取，無需從頭訓練。

模型能力

圖像特徵提取

圖像分類

下游任務微調

使用案例

計算機視覺

圖像分類

在預訓練模型基礎上添加線性層，用於特定圖像分類任務。

在ImageNet等基準數據集上表現出色。

特徵提取

提取圖像的特徵表示，用於其他視覺任務如目標檢測、圖像分割等。

🚀 視覺變換器（大型模型）

視覺變換器（ViT）是一種基於Transformer架構的圖像識別模型，它在大規模圖像數據集上進行預訓練，學習圖像的內在表示，可用於提取對下游任務有用的特徵。

🚀 快速開始

視覺變換器（ViT）是一個基於Transformer編碼器的模型（類似BERT），它在大規模圖像數據集（即ImageNet - 21k）上以監督方式進行預訓練，圖像分辨率為224x224像素。

# 使用示例代碼保持不變
from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('google/vit-large-patch16-224-in21k')
model = ViTModel.from_pretrained('google/vit-large-patch16-224-in21k')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state

目前，特徵提取器和模型都支持PyTorch。Tensorflow和JAX/FLAX即將支持，並且ViTFeatureExtractor的API可能會發生變化。

✨ 主要特性

以監督方式在大規模圖像數據集ImageNet - 21k上進行預訓練。
圖像以固定大小的圖像塊序列形式輸入模型，並進行線性嵌入。
模型包含預訓練的池化器，可用於下游任務。

📦 安裝指南

文檔未提及安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

# 使用示例代碼保持不變
from transformers import ViTImageProcessor, ViTModel
from PIL import Image
import requests

url = 'http://images.cocodataset.org/val2017/000000039769.jpg'
image = Image.open(requests.get(url, stream=True).raw)

processor = ViTImageProcessor.from_pretrained('google/vit-large-patch16-224-in21k')
model = ViTModel.from_pretrained('google/vit-large-patch16-224-in21k')

inputs = processor(images=image, return_tensors="pt")
outputs = model(**inputs)
last_hidden_state = outputs.last_hidden_state

高級用法

文檔未提及高級用法代碼示例，故跳過此部分。

📚 詳細文檔

模型描述

圖像以固定大小的圖像塊序列（分辨率為16x16）的形式呈現給模型，並進行線性嵌入。同時，在序列開頭添加一個[CLS]標記，用於分類任務。在將序列輸入到Transformer編碼器的各層之前，還會添加絕對位置嵌入。

需要注意的是，該模型不提供任何微調後的頭部，因為這些頭部被谷歌研究人員歸零處理了。不過，模型包含預訓練的池化器，可用於下游任務（如圖像分類）。

通過對模型進行預訓練，它學習到圖像的內在表示，這些表示可用於提取對下游任務有用的特徵：例如，如果您有一個帶標籤的圖像數據集，您可以在預訓練的編碼器之上放置一個線性層，訓練一個標準的分類器。通常，會在[CLS]標記之上放置一個線性層，因為該標記的最後隱藏狀態可以看作是整個圖像的表示。

預期用途和侷限性

您可以使用原始模型對圖像進行嵌入，但它主要用於在下游任務上進行微調。

訓練數據

ViT模型在ImageNet - 21k數據集上進行預訓練，該數據集包含1400萬張圖像和21000個類別。

訓練過程

預處理

訓練/驗證期間圖像預處理的確切細節可在此處找到。

圖像被調整大小/縮放至相同的分辨率（224x224），並在RGB通道上進行歸一化，均值為(0.5, 0.5, 0.5)，標準差為(0.5, 0.5, 0.5)。

預訓練

該模型在TPUv3硬件（8核）上進行訓練。所有模型變體均以4096的批量大小和10000步的學習率預熱進行訓練。對於ImageNet，作者發現額外應用全局範數為1的梯度裁剪是有益的。預訓練分辨率為224。

評估結果

關於幾個圖像分類基準的評估結果，請參考原論文的表2和表5。需要注意的是，對於微調，在更高分辨率（384x384）下可獲得最佳結果。當然，增加模型大小會提高性能。

🔧 技術細節

文檔未提供足夠詳細的技術實現細節（少於50字），故跳過此章節。

📄 許可證

本項目採用Apache - 2.0許可證。

BibTeX引用和引用信息

@misc{wu2020visual,
      title={Visual Transformers: Token-based Image Representation and Processing for Computer Vision}, 
      author={Bichen Wu and Chenfeng Xu and Xiaoliang Dai and Alvin Wan and Peizhao Zhang and Zhicheng Yan and Masayoshi Tomizuka and Joseph Gonzalez and Kurt Keutzer and Peter Vajda},
      year={2020},
      eprint={2006.03677},
      archivePrefix={arXiv},
      primaryClass={cs.CV}
}

@inproceedings{deng2009imagenet,
  title={Imagenet: A large-scale hierarchical image database},
  author={Deng, Jia and Dong, Wei and Socher, Richard and Li, Li-Jia and Li, Kai and Fei-Fei, Li},
  booktitle={2009 IEEE conference on computer vision and pattern recognition},
  pages={248--255},
  year={2009},
  organization={Ieee}
}