CLIPA-v2オープンソース画像テキストモデル - 無料でデプロイして効率的なゼロショット画像分類タスクを実現

ホーム

Vit H 14 CLIPA 336 Datacomp1b

UCSC-VLAAによって開発

CLIPA-v2モデル、効率的なコントラスティブ画像テキストモデルで、ゼロショット画像分類タスクに特化しています。

テキスト生成画像

Safetensors

オープンソースライセンス:Apache-2.0 #ゼロショット画像分類 #高精度視覚モデル #大規模事前学習

ダウンロード数 493

リリース時間 : 10/17/2023

モデル概要

このモデルはCLIPA-v2アーキテクチャに基づき、コントラスティブ学習を通じて画像とテキストの共同表現を実現し、特にゼロショット画像分類シナリオに適しています。

モデル特徴

効率的なゼロショット分類

限られた予算下で高精度なゼロショットImageNet分類を実現（81.1%精度）

逆比例スケーリング最適化

革新的なトレーニング手法を採用し、計算リソースとモデル性能の効率的なバランスを実現

大規模データトレーニング

datacomp_1bデータセットに基づくトレーニングで、強力な汎化能力を有する

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル特徴抽出

使用事例

画像理解

ゼロショット画像分類

特定のトレーニングなしで新しいカテゴリの画像を分類可能

ImageNetで81.1%の精度を達成

コンテンツモデレーション

違反コンテンツ検出

規定に合わない画像コンテンツを識別

🚀 ViT-H-14-CLIPA-336-datacomp1Bのモデルカード

CLIPA-v2モデルは、特定のタスクにおいて高い性能を発揮する画像とテキストのコントラスト学習モデルです。ゼロショット画像分類などのタスクに適しています。

🚀 クイックスタート

このモデルは、CLIPA-v2アーキテクチャを使用したコントラスト画像 - テキストモデルで、ゼロショット画像分類に使用できます。

✨ 主な機能

コントラスト画像 - テキストモデルとして、画像とテキストの関連性を学習します。
ゼロショット画像分類タスクに対応しています。

📦 インストール

このモデルを使用するには、open_clipライブラリが必要です。以下のコードを参考にしてください。

💻 使用例

基本的な使用法

import torch
import torch.nn.functional as F
from urllib.request import urlopen
from PIL import Image
from open_clip import create_model_from_pretrained, get_tokenizer

model, preprocess = create_model_from_pretrained('hf-hub:ViT-H-14-CLIPA-336')
tokenizer = get_tokenizer('hf-hub:ViT-H-14-CLIPA-336')

image = Image.open(urlopen(
    'https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/beignets-task-guide.png'
))
image = preprocess(image).unsqueeze(0)

text = tokenizer(["a diagram", "a dog", "a cat", "a beignet"], context_length=model.context_length)

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features = F.normalize(image_features, dim=-1)
    text_features = F.normalize(text_features, dim=-1)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)  # prints: [[0., 0., 0., 1.0]]

📚 ドキュメント

モデル詳細

属性	详情
モデルタイプ	コントラスト画像 - テキスト、ゼロショット画像分類
オリジナル	https://github.com/UCSC-VLAA/CLIPA
データセット	mlfoundations/datacomp_1b
論文	- CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a $10,000 Budget; An Extra $4,000 Unlocks 81.8% Accuracy: https://arxiv.org/abs/2306.15658 - An Inverse Scaling Law for CLIP Training: https://arxiv.org/abs/2305.07017

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で公開されています。

引用

@article{li2023clipav2,
      title={CLIPA-v2: Scaling CLIP Training with 81.1% Zero-shot ImageNet Accuracy within a $10,000 Budget; An Extra $4,000 Unlocks 81.8% Accuracy}, 
      author={Xianhang Li and Zeyu Wang and Cihang Xie},
      journal={arXiv preprint arXiv:2306.15658},
      year={2023},
}

@inproceedings{li2023clipa,
      title={An Inverse Scaling Law for CLIP Training}, 
      author={Xianhang Li and Zeyu Wang and Cihang Xie},
      booktitle={NeurIPS},
      year={2023},
}