🚀 CLIP (OpenAIモデル for timm)
CLIPモデルは、コンピュータビジョンタスクにおけるロバスト性の要因を研究するためにOpenAIの研究者によって開発されました。また、モデルがゼロショットで任意の画像分類タスクに汎化する能力をテストするためにも開発されました。ただし、このモデルは一般的なモデル展開を目的として開発されたものではありません。CLIPのようなモデルを展開するには、研究者はまず、展開する特定のコンテキストに関連するモデルの能力を慎重に研究する必要があります。
🚀 クイックスタート
このCLIPモデルのインスタンスは、以下のライブラリでの読み込みを目的としています。
timm
(https://github.com/rwightman/pytorch-image-models)
OpenCLIP
(https://github.com/mlfoundations/open_clip)
Hugging Face Transformersでの使用については、https://huggingface.co/openai/clip-vit-base-patch16 を参照してください。
✨ 主な機能
モデルの詳細
モデルの日付
2021年1月
モデルのタイプ
このモデルは、画像エンコーダとしてViT - B/16 Transformerアーキテクチャを使用し、テキストエンコーダとしてマスク付き自己注意Transformerを使用しています。これらのエンコーダは、対照損失を通じて(画像、テキスト)ペアの類似度を最大化するように訓練されています。
元の実装には、ResNet画像エンコーダを使用するバリアントと、Vision Transformerを使用するバリアントの2つがありました。このリポジトリには、Vision Transformerを使用したバリアントが含まれています。
ドキュメント
モデルの使用
意図された使用目的
このモデルは、研究コミュニティ向けの研究成果として意図されています。このモデルにより、研究者がゼロショット、任意の画像分類をよりよく理解し、探索できることを期待しています。また、このようなモデルの潜在的な影響に関する学際的な研究にも使用できることを期待しています。CLIP論文には、このような分析の例として、潜在的な下流の影響に関する議論が含まれています。
主な意図された使用目的
これらのモデルの主な意図されたユーザーはAI研究者です。主に、研究者がコンピュータビジョンモデルのロバスト性、汎化能力、その他の機能、バイアス、制約をよりよく理解するために使用することを想定しています。
想定外の使用ケース
モデルの任意の展開された使用ケース(商用であるかどうかを問わない)は、現在想定外です。制約された環境での画像検索などの非展開の使用ケースも、特定の固定クラス分類体系でモデルの十分なドメイン内テストが行われない限り、推奨されません。これは、私たちの安全性評価により、特にCLIPの性能が異なるクラス分類体系によって変動することを考慮すると、タスク固有のテストが非常に必要であることが示されたためです。このため、現在、未テストかつ制約のないモデルの展開は、任意の使用ケースで潜在的に有害です。
監視や顔認識の分野に該当する特定の使用ケースは、モデルの性能に関係なく、常に想定外です。これは、このようなタスクに人工知能を使用することは、現在、公平な使用を保証するためのテスト基準やチェックが不足しているため、時期尚早である可能性があるためです。
モデルは英語以外の言語での訓練や評価が目的で行われていないため、その使用は英語の使用ケースに限定する必要があります。
データ
モデルは、公開されている画像キャプションデータで訓練されました。これは、いくつかのウェブサイトをクロールし、YFCC100M などの一般的に使用されている既存の画像データセットを組み合わせることで行われました。データの大部分は、インターネットのクロールから得られています。これは、データが、インターネットに最も接続されている人々や社会を代表しており、先進国や若い男性ユーザーに偏っていることを意味します。
データの使命宣言
このデータセットを構築する目的は、コンピュータビジョンタスクにおけるロバスト性と汎化能力をテストすることでした。その結果、異なる公開されたインターネットデータソースから大量のデータを収集することに重点が置かれました。データは、ほとんど介入しない方法で収集されました。ただし、過度に暴力的な画像や成人向けの画像に反対するポリシーがあり、そのようなコンテンツをフィルタリングできるウェブサイトのみをクロールしました。このデータセットを、商用または展開されたモデルの基礎として使用することは意図しておらず、データセットを公開する予定もありません。
制限事項
CLIPとその分析には、いくつかの制限があります。CLIPは現在、細粒度の分類やオブジェクトのカウントなどの特定のタスクに苦戦しています。CLIPはまた、公平性とバイアスに関する問題も提起しており、これについては論文で、また次のセクションで簡単に説明します。さらに、CLIPをテストする私たちのアプローチにも重要な制限があります。多くの場合、CLIPの性能を評価するために線形プローブを使用しており、線形プローブがモデルの性能を過小評価する可能性があるという証拠があります。
バイアスと公平性
CLIPの性能と、それが示す特定のバイアスは、クラス設計と、含めるカテゴリと除外するカテゴリの選択に大きく依存することがわかりました。Fairface の人物画像を犯罪関連および非人类動物のカテゴリに分類することで、CLIPによる特定の種類の侮辱のリスクをテストしました。人種と性別に関して大きな格差があることがわかりました。さらに、これらの格差は、クラスの構築方法によって変化する可能性があることがわかりました。(詳細は論文の広範な影響のセクションに記載されています。)
また、Fairfaceデータセットを使用して、性別、人種、年齢分類におけるCLIPの性能をテストしました(デフォルトでは、Fairfaceデータセットで構築されている人種カテゴリを使用します)。これは、異なる人口統計学的グループにおける性能の質を評価するためです。性別分類では、すべての人種で精度が96%を超えており、「中東人」が最も高い精度(98.4%)で、「白人」が最も低い精度(96.5%)でした。さらに、CLIPは人種分類で平均約93%、年齢分類で平均約63%の精度を示しました。性別、人種、年齢分類および侮辱の害をテストするための評価の使用は、単に人々におけるモデルの性能を評価し、潜在的なリスクを明らかにするためであり、そのようなタスクへの支持/熱意を示すものではありません。
📄 ライセンス
Apache-2.0