🚀 BRAHMAI-CLIP-v0.1
BRAHMAI-CLIP-v0.1は、画像エンコーダにViT-L/14 Transformerアーキテクチャ、テキストエンコーダにマスク自己注意Transformerを採用したゼロショット画像分類モデルです。画像とテキストのペアの類似度を最大化するように学習されています。
🚀 クイックスタート
BRAHMAI-CLIP-v0.1を使用するには、以下の手順に従ってください。
コード例
from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel
model_id = "brahmairesearch/brahmai-clip-v0.1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)
descriptions = ["a cat's photograph", "a dog's photograph"]
inputs = processor(text=descriptions, images=image, return_tensors="pt", padding=True)
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image
probs = logits_per_image.softmax(dim=1)
print(probs)
✨ 主な機能
モデルのタイプ
ベースモデルは、画像エンコーダにViT-L/14 Transformerアーキテクチャ、テキストエンコーダにマスク自己注意Transformerを使用しています。これらのエンコーダは、画像とテキストのペア間の類似性を最大化するために、対照損失で学習されています。
元の実装では、ResNet画像エンコーダを持つバリアントとVision Transformerを持つバリアントの2つのバリアントが提供されていました。このリポジトリには、Vision Transformerを持つバリアントが含まれています。
日付
2024年6月
モデルの使用
意図された使用方法
このモデルは、学術および研究コミュニティ向けの研究ツールとして設計されています。研究者がゼロショット、任意の画像分類に深入りし、このようなモデルの潜在的な影響に関する学際的研究を探索するのを支援することを目的としています。CLIP論文は、潜在的な下流の影響を議論することで、これらの分析の例を提供しています。
主な意図されたユーザー:
研究者は、このモデルを使用して、コンピュータビジョンモデルの堅牢性、汎化能力、機能、バイアス、および制約についての洞察を得ることが期待されています。
想定外の使用ケース
- デプロイされた使用ケース: 現在、モデルのデプロイ(商用または非商用)は想定外です。制御された環境での画像検索などの非デプロイの使用も、特定の固定クラス分類法で十分なドメイン内テストが行われていない限り、推奨されません。この注意は、安全性評価で強調されているように、CLIPの性能が異なるクラス分類法で変動するためです。
- 監視および顔認識: 監視および顔認識を含む使用ケースは常に想定外です。現在のテスト基準と公平性チェックの欠如を考慮すると、これらのドメインでのAIの早期適用は潜在的に有害です。
- 非英語言語: このモデルは英語以外の言語では特に学習または評価されていません。したがって、その使用は英語のアプリケーションに限定する必要があります。
🔧 技術詳細
制限事項
CLIPとその分析にはいくつかの制限があります。現在、このモデルは細粒度分類や物体のカウントなどのタスクに苦労しています。さらに、CLIPは公平性とバイアスに関する懸念を引き起こしており、これについては論文で、また次のセクションで簡単に議論しています。私たちのテストアプローチの重要な制限は、CLIPの性能を評価するために線形プローブを使用することです。線形プローブがモデルの性能を過小評価する可能性があるという証拠があります。
バイアスと公平性
CLIPの性能と特定のバイアスは、クラス設計とカテゴリの包含または除外の選択によって大きく異なる可能性があります。私たちは、Fairfaceデータセットの人物画像を犯罪関連および非人类動物カテゴリに分類することで、特定のタイプの侮辱のリスクを評価しました。人種と性別に関して大きな格差が見つかり、これらの格差はクラス構築によって変化する可能性があります。これらの調査結果の詳細は、論文の広範な影響セクションに記載されています。
私たちはまた、Fairfaceデータセットを使用して、性別、人種、および年齢分類におけるCLIPの性能を評価しました。性別分類では、すべての人種で96%を超える精度が得られ、「中東人」が最も高い精度(98.4%)、「白人」が最も低い精度(96.5%)でした。人種分類では、CLIPの平均精度は約93%、年齢分類では約63%でした。私たちの性別、人種、および年齢分類、ならびに侮辱の害に関する評価は、異なる人口統計におけるモデルの性能を評価し、潜在的なリスクを強調することを目的としており、そのようなタスクを支持または促進することを意図したものではありません。
📄 ライセンス
このプロジェクトはMITライセンスの下で提供されています。