vit_large_patch14_clip_336.openaiのオープンソースモデル - ゼロショット画像分類タスクをサポート

ホーム

Vit Large Patch14 Clip 336.openai

timmによって開発

OpenAIが開発したCLIPモデル、ViT-L/14アーキテクチャを採用、ゼロショット画像分類タスクをサポート

テキスト生成画像

Safetensors

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #マルチモーダルコントラスト学習 #ViT-L/14アーキテクチャ

ダウンロード数 35.62k

リリース時間 : 4/10/2023

モデル概要

CLIPモデルはコントラスト学習により画像とテキストエンコーダを共同訓練し、クロスモーダル理解を実現、特にゼロショット画像分類タスクに優れている

モデル特徴

ゼロショット学習能力

特定タスクの微調整なしで新しいカテゴリの画像分類が可能

クロスモーダル理解

共同訓練により画像とテキストの意味的整合を実現

ロバスト性設計

コンピュータビジョンタスク向けにロバスト性と汎化性を最適化

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

使用事例

学術研究

コンピュータビジョンロバスト性研究

異なる分布データにおけるモデルの性能を研究

論文でクロスデータセット汎化能力を実証

マルチモーダル学習研究

視覚-言語共同表現学習を探索

画像とテキストの共有埋め込み空間を構築

🚀 vit_large_patch14_clip_336.openaiのモデルカード

CLIP（OpenAIのtimm用モデル）は、コンピュータビジョンタスクにおけるロバスト性やゼロショット画像分類の研究に役立つモデルです。このモデルは特定のコンテキストでの展開に向けたものではなく、研究用途を主な目的としています。

🚀 クイックスタート

CLIPモデルは、OpenAIの研究者によって開発されました。コンピュータビジョンタスクにおけるロバスト性の要因を研究し、ゼロショット方式で任意の画像分類タスクに汎化するモデルの能力をテストするために開発されました。

このCLIPモデルのインスタンスは、以下のライブラリでの読み込みを想定しています。

timm (https://github.com/rwightman/pytorch-image-models)
OpenCLIP (https://github.com/mlfoundations/open_clip)

Hugging Face Transformersでの使用については、https://huggingface.co/openai/clip-vit-large-patch14-336 を参照してください。

✨ 主な機能

モデルの詳細

モデルの日付：2021年1月
モデルのタイプ：このモデルは、画像エンコーダとしてViT-L/14 (336x336) Transformerアーキテクチャを使用し、テキストエンコーダとしてマスクされた自己注意Transformerを使用しています。これらのエンコーダは、対照損失を通じて（画像、テキスト）ペアの類似性を最大化するように訓練されています。元の実装には、ResNet画像エンコーダを使用するバリアントとVision Transformerを使用するバリアントの2つがあり、このリポジトリにはVision Transformerを使用するバリアントが含まれています。
ドキュメント：
- ブログ記事
- CLIP論文

モデルの使用

意図された使用法

このモデルは、研究コミュニティ向けの研究成果として意図されています。研究者がゼロショット、任意の画像分類をよりよく理解し、探索できるようにすることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも使用できることを期待しています。CLIP論文には、このような分析の例として潜在的な下流の影響に関する議論が含まれています。

主な意図されたユーザー：AI研究者
主な使用想定：研究者がコンピュータビジョンモデルのロバスト性、汎化能力、その他の能力、バイアス、制約をよりよく理解するために使用することを想定しています。

想定外の使用ケース

モデルの任意の展開された使用ケース（商用か否かに関わらず）は、現在想定外です。制約された環境での画像検索などの非展開の使用ケースも、特定の固定クラス分類法でモデルの十分なドメイン内テストが行われていない限り、推奨されません。これは、我々の安全性評価により、特にCLIPの性能が異なるクラス分類法によって変動することを考慮すると、タスク固有のテストが非常に必要であることが示されたためです。このため、未テストかつ制約のないモデルの展開は、現在のところ任意の使用ケースで潜在的に有害です。
監視や顔認識の分野に属する特定の使用ケースは、モデルの性能に関係なく、常に想定外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。
このモデルは英語以外の言語での訓練や評価が目的とされていないため、その使用は英語の使用ケースに限定されるべきです。

データ

このモデルは、公開されている画像キャプションデータで訓練されています。これは、いくつかのウェブサイトをクローリングし、YFCC100Mなどの一般的に使用されている既存の画像データセットを組み合わせて行われました。データの大部分は、インターネットのクローリングから得られています。これは、データがインターネットに最も接続されている人々や社会をより代表しており、先進国、若年層、男性ユーザーに偏っていることを意味します。

データの使命宣言

このデータセットを構築する目的は、コンピュータビジョンタスクにおけるロバスト性と汎化能力をテストすることでした。その結果、焦点は異なる公開されたインターネットデータソースから大量のデータを収集することに置かれました。データは主に非介入的な方法で収集されました。ただし、過度に暴力的な画像や成人向けの画像に対するポリシーがあり、そのようなコンテンツをフィルタリングできるウェブサイトのみをクローリングしました。このデータセットを商用または展開されたモデルの基礎として使用することを意図しておらず、データセットを公開する予定もありません。

制限事項

CLIPとその分析にはいくつかの制限があります。CLIPは現在、細粒度の分類やオブジェクトのカウントなどの特定のタスクに苦労しています。CLIPはまた、公平性とバイアスに関する問題も引き起こします。これについては論文で議論されており、次のセクションでも簡単に説明します。さらに、CLIPをテストする我々のアプローチにも重要な制限があります。多くの場合、CLIPの性能を評価するために線形プローブを使用しており、線形プローブがモデルの性能を過小評価する可能性があるという証拠があります。

バイアスと公平性

我々は、CLIPの性能とそれが示す特定のバイアスが、クラスの設計と含めるカテゴリと除外するカテゴリの選択に大きく依存することを発見しました。Fairfaceの人の画像を犯罪関連および非人类動物のカテゴリに分類することで、CLIPによる特定の種類の侮辱のリスクをテストしました。人種と性別に関して大きな格差があることがわかりました。さらに、これらの格差はクラスの構築方法によって変化する可能性があることがわかりました。（詳細は論文の広範な影響セクションに記載されています。）

我々はまた、Fairfaceデータセットを使用して、性別、人種、年齢分類におけるCLIPの性能をテストしました。（我々は、Fairfaceデータセットで構築されている人種カテゴリをデフォルトで使用しています。）これにより、異なる人口統計学的グループにおける性能の質を評価しました。性別分類において、すべての人種で精度が96％を超えており、「中東人」が最も高い精度（98.4％）を示し、「白人」が最も低い精度（96.5％）を示しました。さらに、CLIPは人種分類で平均約93％、年齢分類で平均約63％の精度を示しました。我々が性別、人種、年齢分類および侮辱の害をテストするために評価を使用するのは、単に人々にわたるモデルの性能を評価し、潜在的なリスクを明らかにするためであり、そのようなタスクを支持/熱意を示すためではありません。