clip4clip-webvid150kオープンソースモデル - 大規模ビデオ

ホーム

Clip4clip Webvid150k

Searchium-aiによって開発

WebVidデータセットのサブセットでトレーニングされたCLIP4Clipビデオ-テキスト検索モデル、大規模なビデオ-テキスト検索アプリケーション向け

テキスト生成ビデオ

Transformers

#ビデオテキスト検索 #大規模ビデオ検索 #CLIP転移学習

ダウンロード数 19.30k

リリース時間 : 4/17/2023

モデル概要

このモデルはCLIP画像-言語事前トレーニングモデルの力を活用し、ビデオ内の視覚-時間概念を学習し、ビデオベースの検索を改善します。トレーニングにはWebVidデータセットの最初の15万のビデオ-テキストペアのサブセットが使用されました。

モデル特徴

大規模ビデオ検索

膨大なビデオデータセットを処理可能で、大規模なビデオ検索アプリケーションに適しています

CLIP4Clipアーキテクチャ

CLIP画像-言語事前トレーニングモデルに基づき、ビデオ検索タスク向けに最適化されています

WebVidデータセットトレーニング

大規模で多様なWebVidデータセットでトレーニングされ、モデルの性能を向上させます

モデル能力

ビデオ-テキスト検索

ビデオ埋め込み抽出

テキスト埋め込み抽出

クロスモーダル検索

使用事例

ビデオ検索

大規模ビデオライブラリ検索

約150万のビデオを含むコレクションから関連ビデオを検索

モデルが膨大なビデオデータセットを処理する可能性を示しています

コンテンツ管理

ビデオコンテンツのタグ付けと検索

テキスト記述に基づいて関連ビデオコンテンツを自動検索

🚀 CLIP4Clip/WebVid-150k モデルカード

このモデルは、WebVidデータセットのサブセットを使用して学習されたCLIP4Clipのビデオテキスト検索モデルです。大規模なビデオテキスト検索アプリケーションに役立ちます。

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

✨ 主な機能

WebVidデータセットのサブセットを使用して学習されたCLIP4Clipビデオテキスト検索モデル。
大規模なビデオテキスト検索アプリケーションに適用可能。
テキスト埋め込みとビデオ埋め込みの抽出機能を提供。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

テキスト埋め込みの抽出

import numpy as np
import torch
from transformers import CLIPTokenizer, CLIPTextModelWithProjection


search_sentence = "a basketball player performing a slam dunk"

model = CLIPTextModelWithProjection.from_pretrained("Searchium-ai/clip4clip-webvid150k")
tokenizer = CLIPTokenizer.from_pretrained("Searchium-ai/clip4clip-webvid150k")

inputs = tokenizer(text=search_sentence , return_tensors="pt")
outputs = model(input_ids=inputs["input_ids"], attention_mask=inputs["attention_mask"])

# Normalize embeddings for retrieval:
final_output = outputs[0] / outputs[0].norm(dim=-1, keepdim=True)
final_output = final_output.cpu().detach().numpy()
print("final output: ", final_output)

ビデオ埋め込みの抽出

追加のノートブック "GSI_VideoRetrieval_VideoEmbedding.ipynb" を参照することで、ビデオ埋め込みの抽出方法とビデオ前処理に必要なツールを確認できます。

📚 ドキュメント

モデルの詳細

CLIP4Clipビデオテキスト検索モデルは、WebVidデータセットのサブセットを使用して学習されました。モデルと学習方法については、Louらによる論文 "Clip4Clip: An Empirical Study of CLIP for End to End Video Clip Retrieval" で説明されており、付属の GitHubリポジトリで実装されています。

学習プロセスでは、WebVidデータセットを利用しました。これは、ウェブから収集された短いビデオとそれに対応するテキスト記述の包括的なコレクションです。学習には、データセットの最初の150,000のビデオテキストペアからなるサブセットが使用されました。

このHFモデルは、clip-vit-base-patch32 アーキテクチャに基づいており、Searchium のDaphna Idelsonによって重みが学習されました。

モデルの意図された使用法

このモデルは、大規模なビデオテキスト検索アプリケーションに使用することを意図しています。機能を示すために、付属の Video Search Space を参照してください。これは、約150万のビデオの大規模なコレクションに対する検索デモを提供します。このインタラクティブなデモは、テキストクエリに基づいてビデオを効果的に検索するモデルの能力を示しており、大量のビデオデータセットを扱う潜在能力を強調しています。

モチベーション

元の著者によると、この研究の主な動機は、CLIP画像言語事前学習モデルの力を活用し、ビデオから視覚的な時間概念を学習することにより、ビデオベースの検索を改善することです。WebVidデータセットを使用することで、データセットの大規模性と多様性により、論文で説明されている以上のモデルの能力が向上しました。

評価

モデルの性能を評価するために、Webvidデータセットの最後の10,000のビデオクリップとそれに付随するテキストを使用しました。以下のモデルに対して、R1、R5、R10、MedianR、およびMeanRを評価しました。

ゼロショット事前学習clip-vit-base-patch32モデル
データセット MSR-VTT で学習されたCLIP4Clipベースの重み（10,000のビデオテキストペアからなる）
データセットWebvid-2Mの150Kサブセットで学習されたCLIP4Clipベースの重み
データセットWebvid-2Mの150Kサブセットで学習され、二値化され、さらに100のトップ検索で微調整されたCLIP4Clipベースの重み - 検索の高速化と効率化のため [1]

モデル	R1 ↑	R5 ↑	R10 ↑	MedianR ↓	MeanR ↓
ゼロショットclip重み	37.16	62.10	71.16	3.0	42.2128
MSR-VTTで学習されたCLIP4Clip重み	38.38	62.89	72.01	3.0	39.3023
150k Webvidで学習されたCLIP4Clip	50.74	77.30	85.05	1.0	14.9535
150k Webvidで学習され、rerank100で二値化されたCLIP4Clip	50.56	76.39	83.51	1.0	43.2964

評価の詳細な説明については、ノートブック GSI_VideoRetrieval-Evaluation を参照してください。

[1] 全体的な検索高速化機能について、検索アプリケーションを強化するためには、Searchium.ai を参照してください。

謝辞

Searchium のDiana Mazenkoに感謝します。彼は、モデルをHugging Faceに適応させてロードし、大規模なビデオ検索デモのためのHugging Face SPACE を作成しました。

また、CLIP4Clipに関する包括的な研究と公開されたコードを提供したLouらにも感謝します。

引用

CLIP4Clip論文

@Article{Luo2021CLIP4Clip,
  author  = {Huaishao Luo and Lei Ji and Ming Zhong and Yang Chen and Wen Lei and Nan Duan and Tianrui Li},
  title   = {{CLIP4Clip}: An Empirical Study of CLIP for End to End Video Clip Retrieval},
  journal = {arXiv preprint arXiv:2104.08860},
  year    = {2021},
}

OpenAI CLIP論文

@inproceedings{Radford2021LearningTV,
  title={Learning Transferable Visual Models From Natural Language Supervision},
  author={Alec Radford and Jong Wook Kim and Chris Hallacy and A. Ramesh and Gabriel Goh and Sandhini Agarwal and Girish Sastry and Amanda Askell and Pamela Mishkin and Jack Clark and Gretchen Krueger and Ilya Sutskever},
  booktitle={ICML},
  year={2021}
}