ブラマイクリップ v0.1オープンソースモデル - ゼロサンプル画像分類研究に無料で使用可能

ホーム

Brahmai Clip V0.1

brahmairesearchによって開発

ViT-L/14とマスクドセルフアテンションTransformerを基にしたCLIPモデルで、ゼロショット画像分類研究用

テキスト生成画像

Transformers

英語オープンソースライセンス:MIT #ゼロショット画像分類 #マルチモーダルコントラスティブラーニング #ViT-L/14アーキテクチャ

ダウンロード数 12.53k

リリース時間 : 6/13/2024

モデル概要

このモデルは画像とテキストのエンコーダをコントラスティブラーニングで訓練し、ゼロショット画像分類タスクをサポート、主に学術研究分野で使用

モデル特徴

ゼロショット学習能力

特定タスクのファインチューニングなしで画像分類タスクを実行可能

マルチモーダル理解

視覚情報とテキスト情報を同時処理し、クロスモーダル関連性を構築

研究指向設計

モデルの頑健性、汎化能力、バイアス問題の研究に特化して最適化

モデル能力

画像分類

クロスモーダル検索

ゼロショット学習

使用事例

学術研究

モデル頑健性研究

コンピュータビジョンモデルが異なる分類体系下で示す性能安定性を研究

バイアス分析

異なる人口統計グループ間でのモデル性能差を評価

性別分類精度>96%、人種分類約93%、年齢分類約63%

🚀 BRAHMAI-CLIP-v0.1

BRAHMAI-CLIP-v0.1は、画像エンコーダにViT-L/14 Transformerアーキテクチャ、テキストエンコーダにマスク自己注意Transformerを採用したゼロショット画像分類モデルです。画像とテキストのペアの類似度を最大化するように学習されています。

🚀 クイックスタート

BRAHMAI-CLIP-v0.1を使用するには、以下の手順に従ってください。

コード例

from PIL import Image
import requests
from transformers import CLIPProcessor, CLIPModel

# モデルとプロセッサを定義
model_id = "brahmairesearch/brahmai-clip-v0.1"
model = CLIPModel.from_pretrained(model_id)
processor = CLIPProcessor.from_pretrained(model_id)

# URLから画像を読み込む
image_url = "http://images.cocodataset.org/val2017/000000039769.jpg"
image = Image.open(requests.get(image_url, stream=True).raw)

# テキストの説明を定義
descriptions = ["a cat's photograph", "a dog's photograph"]

# 入力を処理
inputs = processor(text=descriptions, images=image, return_tensors="pt", padding=True)

# モデルから出力を取得
outputs = model(**inputs)
logits_per_image = outputs.logits_per_image

# ラベルの確率を計算
probs = logits_per_image.softmax(dim=1)

# 結果を表示
print(probs)

✨ 主な機能

モデルのタイプ

ベースモデルは、画像エンコーダにViT-L/14 Transformerアーキテクチャ、テキストエンコーダにマスク自己注意Transformerを使用しています。これらのエンコーダは、画像とテキストのペア間の類似性を最大化するために、対照損失で学習されています。元の実装では、ResNet画像エンコーダを持つバリアントとVision Transformerを持つバリアントの2つのバリアントが提供されていました。このリポジトリには、Vision Transformerを持つバリアントが含まれています。

日付

2024年6月

モデルの使用

意図された使用方法

このモデルは、学術および研究コミュニティ向けの研究ツールとして設計されています。研究者がゼロショット、任意の画像分類に深入りし、このようなモデルの潜在的な影響に関する学際的研究を探索するのを支援することを目的としています。CLIP論文は、潜在的な下流の影響を議論することで、これらの分析の例を提供しています。

主な意図されたユーザー:

AI研究者

研究者は、このモデルを使用して、コンピュータビジョンモデルの堅牢性、汎化能力、機能、バイアス、および制約についての洞察を得ることが期待されています。

想定外の使用ケース

デプロイされた使用ケース: 現在、モデルのデプロイ（商用または非商用）は想定外です。制御された環境での画像検索などの非デプロイの使用も、特定の固定クラス分類法で十分なドメイン内テストが行われていない限り、推奨されません。この注意は、安全性評価で強調されているように、CLIPの性能が異なるクラス分類法で変動するためです。
監視および顔認識: 監視および顔認識を含む使用ケースは常に想定外です。現在のテスト基準と公平性チェックの欠如を考慮すると、これらのドメインでのAIの早期適用は潜在的に有害です。
非英語言語: このモデルは英語以外の言語では特に学習または評価されていません。したがって、その使用は英語のアプリケーションに限定する必要があります。

🔧 技術詳細

制限事項

CLIPとその分析にはいくつかの制限があります。現在、このモデルは細粒度分類や物体のカウントなどのタスクに苦労しています。さらに、CLIPは公平性とバイアスに関する懸念を引き起こしており、これについては論文で、また次のセクションで簡単に議論しています。私たちのテストアプローチの重要な制限は、CLIPの性能を評価するために線形プローブを使用することです。線形プローブがモデルの性能を過小評価する可能性があるという証拠があります。

バイアスと公平性

CLIPの性能と特定のバイアスは、クラス設計とカテゴリの包含または除外の選択によって大きく異なる可能性があります。私たちは、Fairfaceデータセットの人物画像を犯罪関連および非人类動物カテゴリに分類することで、特定のタイプの侮辱のリスクを評価しました。人種と性別に関して大きな格差が見つかり、これらの格差はクラス構築によって変化する可能性があります。これらの調査結果の詳細は、論文の広範な影響セクションに記載されています。

私たちはまた、Fairfaceデータセットを使用して、性別、人種、および年齢分類におけるCLIPの性能を評価しました。性別分類では、すべての人種で96％を超える精度が得られ、「中東人」が最も高い精度（98.4％）、「白人」が最も低い精度（96.5％）でした。人種分類では、CLIPの平均精度は約93％、年齢分類では約63％でした。私たちの性別、人種、および年齢分類、ならびに侮辱の害に関する評価は、異なる人口統計におけるモデルの性能を評価し、潜在的なリスクを強調することを目的としており、そのようなタスクを支持または促進することを意図したものではありません。