data2vec-vision-largeオープンソース画像分類モデル - 無料でデプロイして画像分類タスクを支援

ホーム

Data2vec Vision Large

facebookによって開発

Data2Vec-VisionはBEiTアーキテクチャに基づく自己教師あり学習モデルで、ImageNet-1kデータセットで事前学習されており、画像分類タスクに適しています。

画像分類

Transformers

オープンソースライセンス:Apache-2.0 #自己教師あり学習 #マルチモーダル汎用フレームワーク #画像コンテキスト予測

ダウンロード数 225

リリース時間 : 4/14/2022

モデル概要

このモデルはdata2vecフレームワークを採用し、自己蒸留方式で画像データの潜在表現を学習し、コンピュータビジョンタスクをサポートします。

モデル特徴

汎用自己教師あり学習フレームワーク

音声、視覚、言語を含むマルチモーダルタスクを処理する統一されたdata2vecフレームワークを採用

コンテキスト潜在表現予測

局所的な特徴を予測するのではなく、完全な入力情報を含むコンテキスト表現を予測

高性能

複数のベンチマークテストで新しい最高性能を達成または主流の手法と競合する性能

モデル能力

画像分類

視覚的特徴抽出

使用事例

コンピュータビジョン

画像分類

画像を1000クラスに分類

ImageNet-1kベンチマークテストで優れた性能

🚀 Data2Vec-Vision (大型モデル、事前学習のみ)

BEiTモデルは、解像度224x224のImageNet-1k（120万枚の画像、1000クラス）で自己教師付き学習方式で事前学習されています。このモデルは、Alexei Baevski、Wei-Ning Hsu、Qiantong Xu、Arun Babu、Jiatao Gu、Michael Auliによる論文 data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language で紹介され、このリポジトリで最初に公開されました。

免責事項: Facebookチームはこのモデルのモデルカードを作成していないため、このモデルカードはHugging Faceチームによって作成されています。

🚀 クイックスタート

このモデルは画像分類に使用できます。興味のあるタスクに関するファインチューニング済みのバージョンを探すには、モデルハブを参照してください。

✨ 主な機能

画像分類タスクに使用可能です。
自己教師付き学習方式で事前学習されており、汎用性が高いです。

📦 インストール

元のREADMEにインストール手順は記載されていないため、このセクションは省略されます。

💻 使用例

元のREADMEにコード例は記載されていないため、このセクションは省略されます。

📚 ドキュメント

事前学習方法

モデル画像

詳細については、公式論文を参照してください。

概要

自己教師付き学習の一般的な考え方はモダリティを問わず同じですが、実際のアルゴリズムや目的は大きく異なります。なぜなら、これらは単一のモダリティを念頭に開発されているからです。一般的な自己教師付き学習に近づくために、私たちはdata2vecというフレームワークを提案します。このフレームワークは、音声、自然言語処理、コンピュータビジョンのいずれにも同じ学習方法を使用します。核心的な考え方は、標準的なTransformerアーキテクチャを使用した自己蒸留設定で、入力のマスクされたビューに基づいて、全入力データの潜在表現を予測することです。data2vecは、本質的に局所的な単語、視覚トークン、人間の音声の単位などのモダリティ固有のターゲットを予測するのではなく、入力全体の情報を含む文脈化された潜在表現を予測します。音声認識、画像分類、自然言語理解の主要なベンチマークに関する実験は、新しい最先端技術または主要なアプローチに対する競争力のあるパフォーマンスを示しています。

想定される用途と制限

学習データ

BEiTモデルは、120万枚の画像と1000クラスから構成される ImageNet-1k データセットで事前学習されています。

学習手順

前処理

学習/検証中の画像の前処理の正確な詳細は、ここで確認できます。

画像は同じ解像度（224x224）にリサイズ/リスケールされ、RGBチャネル全体で平均（0.5, 0.5, 0.5）、標準偏差（0.5, 0.5, 0.5）で正規化されます。

事前学習

すべての事前学習関連のハイパーパラメータについては、元の論文と元のコードベースを参照してください。

評価結果

いくつかの画像分類ベンチマークに関する評価結果については、元の論文の表1を参照してください。ファインチューニングに関しては、より高い解像度で最良の結果が得られます。もちろん、モデルサイズを大きくすると、パフォーマンスが向上します。

🔧 技術詳細

元のREADMEに具体的な技術詳細（50文字以上）は記載されていないため、このセクションは省略されます。

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

BibTeXエントリと引用情報

@misc{https://doi.org/10.48550/arxiv.2202.03555,
  doi = {10.48550/ARXIV.2202.03555},
  url = {https://arxiv.org/abs/2202.03555},
  author = {Baevski, Alexei and Hsu, Wei-Ning and Xu, Qiantong and Babu, Arun and Gu, Jiatao and Auli, Michael},
  keywords = {Machine Learning (cs.LG), FOS: Computer and information sciences, FOS: Computer and information sciences},
  title = {data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language},
  publisher = {arXiv},
  year = {2022},
  copyright = {arXiv.org perpetual, non-exclusive license}
}