beit-base-finetuned-ade-640-640オープンソース画像分割モデル - 画像のセマンティック分割を高精度で実現

Beit Base Finetuned Ade 640 640

microsoftによって開発

BEiTは、ビジュアルTransformer（ViT）アーキテクチャに基づくモデルで、自己教師付き学習によりImageNet - 21kで事前学習され、ADE20kデータセットで微調整され、画像セマンティックセグメンテーションタスクに特化しています。

画像セグメンテーション

Transformers

オープンソースライセンス:Apache-2.0 #画像セマンティックセグメンテーション #ビジュアルTransformer #ADE20k微調整

ダウンロード数 1,645

リリース時間 : 3/2/2022

モデル概要

BEiTモデルは、BERTライクのTransformerエンコーダアーキテクチャを採用し、マスク画像パッチ予測により事前学習され、高解像度画像のセマンティックセグメンテーションをサポートし、シーン解析などのコンピュータビジョンタスクに適しています。

モデル特徴

自己教師付き事前学習

ImageNet - 21kデータセットを使用して、マスク画像パッチ予測により事前学習し、画像の内在的な表現を学習します。

高解像度微調整

ADE20kデータセットで640x640の解像度で微調整し、セマンティックセグメンテーションの性能を最適化します。

相対位置エンコーディング

T5のような相対位置エンコーディングを採用し、絶対位置エンコーディングではなく、モデルの柔軟性を向上させます。

モデル能力

画像セマンティックセグメンテーション

シーン解析

ビジュアル特徴抽出

使用事例

コンピュータビジョン

建物シーン解析

家や城などの建物を含む画像をセマンティックセグメンテーションし、異なる物体の領域を識別します。

ADE20kベンチマークデータセットで最先端の結果を達成します。

都市景観分析

都市の通りの画像を解析し、道路、車、歩行者などの要素を識別します。

CityScapesなどのデータセットで優れた性能を発揮します。

🚀 BEiT (ベースサイズのモデル、ADE20kでファインチューニング済み)

BEiTモデルは、解像度224x224のImageNet - 21k（1400万枚の画像、21,841クラス）で自己教師付き学習方式で事前学習され、解像度640x640のADE20k（画像のセマンティックセグメンテーションの重要なベンチマーク）でファインチューニングされました。このモデルは、Hangbo Bao、Li Dong、Furu Weiによる論文BEIT: BERT Pre - Training of Image Transformersで紹介され、このリポジトリで最初に公開されました。

免責事項: BEiTを公開したチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

BEiTモデルは、画像のセマンティックセグメンテーションに使用できます。詳細なモデルの説明や使用方法は以下のセクションを参照してください。

✨ 主な機能

自己教師付き学習でImageNet - 21kで事前学習され、画像の内部表現を学習。
ADE20kやCityScapesなどの重要なベンチマークでSOTAの結果を達成。
画像のセマンティックセグメンテーションに適したモデル。

📚 ドキュメント

モデルの説明

BEiTモデルはVision Transformer (ViT) であり、Transformerエンコーダモデル（BERTライク）です。元のViTモデルとは異なり、BEiTは224x224ピクセルの解像度で、自己教師付き学習方式で大量の画像コレクション、つまりImageNet - 21kで事前学習されています。モデルの事前学習の目的は、マスクされたパッチに基づいて、OpenAIのDALL - EのVQ - VAEのエンコーダから視覚トークンを予測することです。

次に、モデルは解像度224x224で、100万枚の画像と1,000クラスからなるデータセットであるImageNet（ILSVRC2012とも呼ばれる）で教師付き学習方式でファインチューニングされました。

画像は固定サイズのパッチ（解像度16x16）のシーケンスとしてモデルに提示され、線形埋め込みされます。元のViTモデルとは異なり、BEiTモデルは絶対位置埋め込みではなく相対位置埋め込み（T5と同様）を使用し、[CLS]トークンの最終隠れ状態の上に線形層を配置する代わりに、パッチの最終隠れ状態を平均プーリングして画像の分類を行います。

モデルを事前学習することで、画像の内部表現を学習し、下流タスクに役立つ特徴を抽出するために使用できます。セマンティックセグメンテーションの場合は、例えば[mmsegライブラリ](https://github.com/open - mmlab/mmsegmentation)で利用可能なデコードヘッドの1つを追加し、注釈付き画像で教師付き学習方式でモデルをファインチューニングすることができます。著者らは、UperHeadセグメンテーションデコードヘッドでBEiTをファインチューニングし、ADE20kやCityScapesなどの重要なベンチマークでSOTAの結果を得ることができました。

想定用途と制限

この生モデルは画像のセマンティックセグメンテーションに使用できます。興味のあるタスクでファインチューニングされたバージョンを探すには、モデルハブを参照してください。

使い方

以下は、このモデルを画像のセマンティックセグメンテーションに使用する方法です。

💻 使用例

基本的な使用法

from transformers import BeitFeatureExtractor, BeitForSemanticSegmentation
from datasets import load_dataset
from PIL import Image

# load ADE20k image
ds = load_dataset("hf-internal-testing/fixtures_ade20k", split="test")
image = Image.open(ds[0]['file'])

feature_extractor = BeitFeatureExtractor.from_pretrained('microsoft/beit-base-finetuned-ade-640-640')
model = BeitForSemanticSegmentation.from_pretrained('microsoft/beit-base-finetuned-ade-640-640')

inputs = feature_extractor(images=image, return_tensors="pt")
outputs = model(**inputs)
# logits are of shape (batch_size, num_labels, height/4, width/4)
logits = outputs.logits

現在、特徴抽出器とモデルの両方がPyTorchをサポートしています。

学習データ

このBEiTモデルは、1400万枚の画像と21kクラスからなるデータセットである[ImageNet - 21k](http://www.image - net.org/)で事前学習され、数千枚の注釈付き画像と150クラスからなるADE20kでファインチューニングされています。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細はここで確認できます。

画像は同じ解像度（640x640）に切り抜きとパディングが行われ、RGBチャネル全体でImageNetの平均と標準偏差で正規化されます。

事前学習

事前学習に関連するすべてのハイパーパラメータについては、元の論文の15ページを参照してください。

評価結果

いくつかの画像分類ベンチマークでの評価結果については、元の論文の表1と表2を参照してください。ファインチューニングでは、より高い解像度（384x384）で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

BibTeXエントリと引用情報

@article{DBLP:journals/corr/abs-2106-08254,
  author    = {Hangbo Bao and
               Li Dong and
               Furu Wei},
  title     = {BEiT: {BERT} Pre-Training of Image Transformers},
  journal   = {CoRR},
  volume    = {abs/2106.08254},
  year      = {2021},
  url       = {https://arxiv.org/abs/2106.08254},
  archivePrefix = {arXiv},
  eprint    = {2106.08254},
  timestamp = {Tue, 29 Jun 2021 16:55:04 +0200},
  biburl    = {https://dblp.org/rec/journals/corr/abs-2106-08254.bib},
  bibsource = {dblp computer science bibliography, https://dblp.org}
}