TiC - CLIP - basic - oracleオープンソース視覚言語モデル - 時間的持続学習をサポート、多年の訓練データをカバー

ホーム

Tic CLIP Basic Oracle

appleによって開発

TiC-CLIPはOpenCLIPを改良した視覚言語モデルで、時間的持続学習に焦点を当て、2014年から2022年までの訓練データをカバーしています

テキスト生成画像オープンソースライセンス:その他 #持続学習視覚モデル #ゼロショット画像分類 #時間ロバスト性

ダウンロード数 37

リリース時間 : 6/5/2024

モデル概要

このモデルは持続学習手法により最新データとの同期を維持し、従来の再訓練の高コストを回避、時間ロバスト性が必要な視覚言語タスクに特に適しています

モデル特徴

時間的持続学習

メモリ再生手法を採用し効率的な継続的訓練を実現、従来手法比2.5倍の計算量削減

大規模時間注釈データ

TiC-DataCompデータセットで訓練、127億のタイムスタンプ付き画像テキストペアを含み、9年間の時間スパンをカバー

時間ロバスト性

時間経過による性能低下問題に特化して設計され、新データへの適応性を維持

モデル能力

ゼロショット画像分類

クロスモーダル検索

時間敏感な視覚理解

使用事例

研究応用

持続学習手法開発

研究者はこのモデルをベンチマークとして使用し、新しい持続学習手法を開発可能

手法開発プロセスの加速

商業応用

時効性コンテンツ理解

ニュースやソーシャルメディア分析など、時間とともに変化するコンテンツを理解する必要があるアプリケーションに使用

最新コンテンツの理解精度向上

🚀 TiC-CLIP-basic-oracleのモデルカード

このリポジトリには、2014年から2022年までのデータを使用して、TiC-DataComp-Yearly (xlarge, basic filtering) でトレーニングされたTiC-CLIPモデルが含まれています。トレーニングには、修正版のOpenCLIPコードを使用しています。詳細については、GitHubリポジトリを参照してください。

📚 ドキュメント

モデルの説明

大規模な基礎モデルを最新のデータで最新化することは、本質的にコストがかかります。継続的に再トレーニングする際の高コストを回避するために、これらのモデルを継続的にトレーニングすることが不可欠です。この問題は、大規模な継続学習のベンチマークやベースラインが不足していることでさらに悪化します。我々は、ビジョン言語モデルのトレーニングに関する最初のウェブスケールの時間継続型 (TiC) ベンチマークを導入します: TiC-DataComp、TiC-YFCC、およびTiC-Redcaps。我々の最大のデータセットであるTiC-DataCompには、9年間 (2014 - 2022年) にわたる127億を超えるタイムスタンプ付きの画像テキストペアが含まれています。まず、ベンチマークを使用して、既存のモデルの時間的な堅牢性を測定するための様々な動的評価を行います。 OpenAIのCLIP (2020年までのデータでトレーニング) は、OpenCLIPリポジトリ内の最近トレーニングされたモデルと比較して、2021 - 2022年の選定された検索タスクで約8%のゼロショット精度を失うことを示しています。次に、時間連続的なデータでモデルを効率的にトレーニングする方法を研究します。最後のチェックポイントからトレーニングを続け、古いデータを再生する単純なリハーサルベースのアプローチが、スクラッチから再トレーニングする標準的な方法と比較して、コンピュートを2.5倍削減することを実証しています。コードは、このURLで入手できます。

属性	详情
開発者	Apple
ライセンス	LICENSE を参照

モデルのソース [オプション]

✨ 主な機能

研究者は、TiC-CLIPの事前学習済みモデルを使用して、事前学習済みのチェックポイントから始めて、翌年または翌月のデータで継続的にトレーニングすることで、継続学習方法をより迅速に設計することができます。

🚀 クイックスタート

これらのモデルは、DataComp評価スイートと、TiC-DataComp-RetrievalおよびTiC-DataCompNetでの評価用に修正したDataCompのバージョンと互換性があります。また、OpenCLIPコードを使用してトレーニングを再開するため、または新しいトレーニングの初期化として使用することもできます。評価セットを作成するには、GitHubリポジトリの指示に従ってください。または、38のデータセットでの標準評価については、DataCompを参照してください。

以下のコードスニペットでは、TiC-DataCompデータが準備され、GitHubリポジトリの指示に従っていることを前提としています。

💻 使用例

基本的な使用法

YEAR=2016 # 2014 - 2016年のデータは1年にまとめられているため、2016年以前のモデルは存在しません
REPO="apple/TiC-CLIP-basic-oracle"
huggingface-cli download $REPO checkpoints/$YEAR.pt

## トレーニング
pushd datacomp
final_data_dir=$TIC_DATACOMP_Y_PATH/train/$YEAR/
torchrun --nproc_per_node 8 --nnodes 1 \
    train.py \
    --scale "tic_medium" \
    --dataset_resampled \
    --data_dir $final_data_dir \
    --output_dir "./results/" \
    --exp_name "datacomp_medium-basic_cumulative" \
    --imagenet_val  $IMAGENET_VAL_PATH  \
    --save_frequency 1 \
    --resume
popd

高度な使用法

## モデルの評価
# ViT-B/16モデルをTiC/Retrieval/Yearly/$YEARおよびTiC/DataCompNet/Yearly/$YEARで評価する
pushd datacomp
python ../dataset_creation/tic-datacomp/generate_tasklist.py --yaml-path tasklist.yml --sample-eval --eval-tasks retrieval/yearly,datacompnet/yearly
python evaluate.py --data_dir data/ --train_output_dir ./results --use_model "ViT-B-16 $YEAR.pt" --skip_hf --skip_db --skip_notification

# OpenCLIPを使用したモデルのロードと推論の例
import open_clip
from huggingface_hub import hf_hub_download
filename = hf_hub_download(repo_id="apple/TiC-CLIP-basic-oracle", filename="checkpoints/2016.pt")
model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-16', filename)
tokenizer = open_clip.get_tokenizer('ViT-B-16')

image = preprocess(Image.open("image.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    text_features /= text_features.norm(dim=-1, keepdim=True)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)

🔧 技術詳細

トレーニングデータ

トレーニングデータの詳細については、TiC-DataCompを参照してください。

トレーニング手順

トレーニング手順の詳細については、TiC-CLIP論文の2 - 3章を参照してください。

📄 ライセンス

このモデルは、custom-apple-licenseの下で提供されています。

引用

TiC-CLIP: Continual Training of CLIP Models. (ICLR 2024) Garg, S., Farajtabar, M., Pouransari, H., Vemulapalli, R., Mehta, S., Tuzel, O., Shankar, V. and Faghri, F..

@inproceedings{garg2024tic,
  title={TiC-CLIP: Continual Training of CLIP Models},
  author={Garg, Saurabh and Farajtabar, Mehrdad and Pouransari, Hadi and Vemulapalli, Raviteja and Mehta, Sachin and Tuzel, Oncel and Shankar, Vaishaal and Faghri, Fartash},
  booktitle={The Twelfth International Conference on Learning Representations (ICLR)},
  year={2024},
  url={https://openreview.net/forum?id=TLADT8Wrhn}
}