TiC - CLIP - bestpool - cumulativeオープンソースビジュアル言語モデル - コストと処理時間を削減した時系列データの取り扱い

ホーム

Tic CLIP Bestpool Cumulative

appleによって開発

TiC-CLIPはOpenCLIPを改良した視覚言語モデルで、時系列データ上で継続的トレーニング戦略を採用し、モデル更新の計算コストを効果的に削減しました。

テキスト生成画像オープンソースライセンス:その他 #継続的学習による視覚言語理解 #ゼロショット画像分類 #時間的ロバスト性

ダウンロード数 313

リリース時間 : 6/5/2024

モデル概要

このモデルは継続的トレーニングを行う視覚言語モデルのベンチマークスイートで、9年間(2014-2022)にわたるタイムスタンプ付き画像-テキストペアデータを含み、ゼロショット画像分類とクロスモーダル検索タスクをサポートします。

モデル特徴

時間的継続トレーニング

継続的トレーニング戦略を採用し完全な再トレーニングを回避、標準手法と比べて2.5倍の計算量削減

大規模時系列データ

TiC-DataCompデータセットを基に、2014-2022年の127億件のタイムスタンプ付き画像-テキストペアを含む

効率的なリプレイ戦略

最終チェックポイントからトレーニングを継続し古いデータをリプレイする方法でモデル性能を維持

モデル能力

ゼロショット画像分類

画像-テキストマッチング

クロスモーダル検索

継続的学習

使用事例

コンピュータビジョン研究

継続的学習手法開発

研究者はこのモデルを利用して継続的学習手法の開発を加速できる

事前学習済みチェックポイントから出発し、後続の年次/月次データで継続的トレーニングを実施

クロスモーダルアプリケーション

画像検索システム

時系列ベースの画像検索システムを構築

2021-2022検索タスクで従来のCLIPモデルより8%精度向上

🚀 TiC-CLIP-bestpool-cumulative のモデルカード

このリポジトリには、2014年から2022年までのデータを使用し、TiC-DataComp-Yearly (xlarge, bestpool フィルタリング) でトレーニングされた TiC-CLIP モデルが含まれています。トレーニングには、修正版の OpenCLIP コードを使用しています。詳細については、GitHub リポジトリを参照してください。

🚀 クイックスタート

研究者は、TiC-CLIP の事前学習済みモデルを使用して、事前学習済みのチェックポイントから始め、翌年または翌月のデータで継続的にトレーニングすることで、継続学習手法をより迅速に設計することができます。

モデルは DataComp 評価スイートと、TiC-DataComp-Retrieval および TiC-DataCompNet での評価用に修正した DataComp バージョンと互換性があります。また、OpenCLIP コードを使用してトレーニングを再開したり、新しいトレーニングの初期化に使用することもできます。評価セットを作成するには、GitHub リポジトリの指示に従ってください。また、38 のデータセットでの標準評価については、DataComp を参照してください。

以下のコードスニペットでは、TiC-DataComp データが準備され、GitHub リポジトリの指示に従っていることを前提としています。

💻 使用例

基本的な使用法

YEAR=2016 # 2014 - 2016 年のデータは1年にまとめられているため、2016年以前のモデルは存在しません
REPO="apple/TiC-CLIP-bestpool-cumulative"
huggingface-cli download $REPO checkpoints/$YEAR.pt

## Train Cummulative
pushd datacomp
final_data_dir=$TIC_DATACOMP_Y_PATH/train/$YEAR/
torchrun --nproc_per_node 8 --nnodes 1 \
    train.py \
    --scale "tic_medium" \
    --dataset_resampled \
    --data_dir $final_data_dir \
    --output_dir "./results/" \
    --exp_name "datacomp_medium-basic_cumulative" \
    --imagenet_val  $IMAGENET_VAL_PATH  \
    --save_frequency 1 \
    --resume
popd

高度な使用法

## Evaluate Model
# Evaluate a ViT-B/16 model on TiC/Retrieval/Yearly/$YEAR and
# TiC/DataCompNet/Yearly/$YEAR
pushd datacomp
python ../dataset_creation/tic-datacomp/generate_tasklist.py --yaml-path tasklist.yml --sample-eval --eval-tasks retrieval/yearly,datacompnet/yearly
python evaluate.py --data_dir data/ --train_output_dir ./results --use_model "ViT-B-16 $YEAR.pt" --skip_hf --skip_db --skip_notification

import open_clip
from huggingface_hub import hf_hub_download
filename = hf_hub_download(repo_id="apple/TiC-CLIP-bestpool-cumulative", filename="checkpoints/2016.pt")
model, _, preprocess = open_clip.create_model_and_transforms('ViT-B-16', filename)
tokenizer = open_clip.get_tokenizer('ViT-B-16')

image = preprocess(Image.open("image.png").convert('RGB')).unsqueeze(0)
text = tokenizer(["a diagram", "a dog", "a cat"])

with torch.no_grad(), torch.cuda.amp.autocast():
    image_features = model.encode_image(image)
    text_features = model.encode_text(text)
    image_features /= image_features.norm(dim=-1, keepdim=True)
    text_features /= text_features.norm(dim=-1, keepdim=True)

    text_probs = (100.0 * image_features @ text_features.T).softmax(dim=-1)

print("Label probs:", text_probs)

✨ 主な機能

大規模な基盤モデルを最新のデータで更新することは、本質的にコストがかかります。継続的に再トレーニングする際の高コストを回避するために、これらのモデルを継続的にトレーニングすることが不可欠です。この問題は、大規模な継続学習ベンチマークやベースラインがないことでさらに深刻化しています。

私たちは、ビジョン言語モデルのトレーニング用に、最初のウェブスケールの時間継続的 (TiC) ベンチマークを導入しました。TiC-DataComp、TiC-YFCC、および TiC-Redcaps です。私たちの最大のデータセットである TiC-DataComp は、9年間 (2014 - 2022年) にわたる 127 億を超えるタイムスタンプ付きの画像テキストペアを含んでいます。

まず、これらのベンチマークを使用して、既存のモデルの時間的なロバスト性を測定するためのさまざまな動的評価を行います。OpenAI の CLIP (2020年までのデータでトレーニング) は、2021 - 2022 年の選別された検索タスクで、OpenCLIP リポジトリの最近トレーニングされたモデルと比較して、約 8% のゼロショット精度を失うことがわかりました。

次に、時間的に連続したデータでモデルを効率的にトレーニングする方法を研究します。最後のチェックポイントからトレーニングを続け、古いデータを再生するという簡単なリハーサルベースのアプローチが、スクラッチから再トレーニングする標準的な方法と比較して、計算量を 2.5 倍削減できることを示します。コードはこのURL で入手できます。

📚 ドキュメント

モデルの詳細

開発者: Apple
ライセンス: LICENSE を参照

モデルのソース

🔧 技術詳細

トレーニングデータ

詳細については、TiC-DataComp を参照してください。

トレーニング手順

詳細については、TiC-CLIP 論文の 2 - 3 節を参照してください。

📄 ライセンス

ライセンス: other
ライセンス名: custom-apple-license
ライセンスリンク: https://github.com/apple/ml-tic-clip/blob/main/LICENSE

引用

TiC-CLIP: Continual Training of CLIP Models. (ICLR 2024) Garg, S., Farajtabar, M., Pouransari, H., Vemulapalli, R., Mehta, S., Tuzel, O., Shankar, V. and Faghri, F..

@inproceedings{garg2024tic,
  title={TiC-CLIP: Continual Training of CLIP Models},
  author={Garg, Saurabh and Farajtabar, Mehrdad and Pouransari, Hadi and Vemulapalli, Raviteja and Mehta, Sachin and Tuzel, Oncel and Shankar, Vaishaal and Faghri, Fartash},
  booktitle={The Twelfth International Conference on Learning Representations (ICLR)},
  year={2024},
  url={https://openreview.net/forum?id=TLADT8Wrhn}
}