🚀 CLIP4Clip/WebVid-150k モデルカード
このモデルは、WebVidデータセットのサブセットを使用して学習されたCLIP4Clipのビデオテキスト検索モデルです。大規模なビデオテキスト検索アプリケーションに役立ちます。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
✨ 主な機能
- WebVidデータセットのサブセットを使用して学習されたCLIP4Clipビデオテキスト検索モデル。
- 大規模なビデオテキスト検索アプリケーションに適用可能。
- テキスト埋め込みとビデオ埋め込みの抽出機能を提供。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
テキスト埋め込みの抽出
import numpy as np
import torch
from transformers import CLIPTokenizer, CLIPTextModelWithProjection
search_sentence = "a basketball player performing a slam dunk"
model = CLIPTextModelWithProjection.from_pretrained("Searchium-ai/clip4clip-webvid150k")
tokenizer = CLIPTokenizer.from_pretrained("Searchium-ai/clip4clip-webvid150k")
inputs = tokenizer(text=search_sentence , return_tensors="pt")
outputs = model(input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"])
final_output = outputs[0] / outputs[0].norm(dim=-1, keepdim=True)
final_output = final_output.cpu().detach().numpy()
print("final output: ", final_output)
ビデオ埋め込みの抽出
追加のノートブック "GSI_VideoRetrieval_VideoEmbedding.ipynb" を参照することで、ビデオ埋め込みの抽出方法とビデオ前処理に必要なツールを確認できます。
📚 ドキュメント
モデルの詳細
CLIP4Clipビデオテキスト検索モデルは、WebVidデータセットのサブセットを使用して学習されました。モデルと学習方法については、Louらによる論文 "Clip4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval" で説明されており、付属の GitHubリポジトリ で実装されています。
学習プロセスでは、WebVidデータセット を利用しました。これは、ウェブから収集された短いビデオとそれに対応するテキスト記述の包括的なコレクションです。学習には、データセットの最初の150,000のビデオテキストペアからなるサブセットが使用されました。
このHFモデルは、clip-vit-base-patch32 アーキテクチャに基づいており、Searchium のDaphna Idelsonによって重みが学習されました。
モデルの意図された使用法
このモデルは、大規模なビデオテキスト検索アプリケーションに使用することを意図しています。機能を示すために、付属の Video Search Space を参照してください。これは、約150万のビデオの大規模なコレクションに対する検索デモを提供します。このインタラクティブなデモは、テキストクエリに基づいてビデオを効果的に検索するモデルの能力を示しており、大量のビデオデータセットを扱う潜在能力を強調しています。
モチベーション
元の著者によると、この研究の主な動機は、CLIP画像言語事前学習モデルの力を活用し、ビデオから視覚的な時間概念を学習することにより、ビデオベースの検索を改善することです。WebVidデータセットを使用することで、データセットの大規模性と多様性により、論文で説明されている以上のモデルの能力が向上しました。
評価
モデルの性能を評価するために、Webvidデータセットの最後の10,000のビデオクリップとそれに付随するテキストを使用しました。以下のモデルに対して、R1、R5、R10、MedianR、およびMeanRを評価しました。
- ゼロショット事前学習clip-vit-base-patch32モデル
- データセット MSR-VTT で学習されたCLIP4Clipベースの重み(10,000のビデオテキストペアからなる)
- データセットWebvid-2Mの150Kサブセットで学習されたCLIP4Clipベースの重み
- データセットWebvid-2Mの150Kサブセットで学習され、二値化され、さらに100のトップ検索で微調整されたCLIP4Clipベースの重み - 検索の高速化と効率化のため [1]
モデル |
R1 ↑ |
R5 ↑ |
R10 ↑ |
MedianR ↓ |
MeanR ↓ |
ゼロショットclip重み |
37.16 |
62.10 |
71.16 |
3.0 |
42.2128 |
MSR-VTTで学習されたCLIP4Clip重み |
38.38 |
62.89 |
72.01 |
3.0 |
39.3023 |
150k Webvidで学習されたCLIP4Clip |
50.74 |
77.30 |
85.05 |
1.0 |
14.9535 |
150k Webvidで学習され、rerank100で二値化されたCLIP4Clip |
50.56 |
76.39 |
83.51 |
1.0 |
43.2964 |
評価の詳細な説明については、ノートブック GSI_VideoRetrieval-Evaluation を参照してください。
謝辞
Searchium のDiana Mazenkoに感謝します。彼は、モデルをHugging Faceに適応させてロードし、大規模なビデオ検索デモのためのHugging Face SPACE を作成しました。
また、CLIP4Clipに関する包括的な研究と公開されたコードを提供したLouらにも感謝します。
引用
CLIP4Clip論文
@Article{Luo2021CLIP4Clip,
author = {Huaishao Luo and Lei Ji and Ming Zhong and Yang Chen and Wen Lei and Nan Duan and Tianrui Li},
title = {{CLIP4Clip}: An Empirical Study of CLIP for End to End Video Clip Retrieval},
journal = {arXiv preprint arXiv:2104.08860},
year = {2021},
}
OpenAI CLIP論文
@inproceedings{Radford2021LearningTV,
title={Learning Transferable Visual Models From Natural Language Supervision},
author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
booktitle={ICML},
year={2021}
}