🚀 Kangaroo: 長文脈のビデオ入力をサポートする強力なビデオ言語モデル
Kangaroo がリリースされました。詳細は、論文、ブログ、GitHub をご覧ください。
📚 概要
我々は、長文脈のビデオ理解のために設計された強力なマルチモーダル大規模言語モデルである Kangaroo を紹介します。提案する Kangaroo モデルは、ビデオキャプション、QA、会話などの様々なビデオ理解タスクで卓越した性能を示します。一般的に、本研究における主要な貢献は以下の通りです。
- 長文脈のビデオ入力。モデルがより長いビデオを理解する能力を高めるために、入力ビデオの最大フレーム数を 160 に拡張しました。そのために、フレーム数とアスペクト比が異なる複数のビデオを 1 つのサンプルに集約します。さらに、空間時間パス化モジュールを設計して、トレーニング効率を向上させます。
- 高い性能。様々なビデオ理解ベンチマークでモデルを評価しました。結果は、我々のモデルが大多数の包括的なベンチマークで最先端の性能を達成し、他のベンチマークでも競争力のあるレベルを維持していることを示しています。特に、我々のモデルは、30B 以上のパラメータを持つほとんどの大規模なオープンソースモデルや、特定のベンチマークでいくつかの独自モデルを上回っています。
- ビデオアノテーションシステム。オープンソースおよび内部ビデオにキャプションを生成するためのデータキュレーションと自動アノテーションシステムを開発しました。生成された大規模なデータセットは、ビデオテキストの事前学習に利用されます。ビデオ命令微調整段階では、様々なタスクをカバーする公開および内部データセットに基づいて、ビデオ命令微調整データセットを構築します。
- 双言語会話。提案するモデルは、中国語、英語、および双言語会話の機能を備えており、単一/複数ラウンドの会話パラダイムをサポートします。
🚀 クイックスタート
📦 インストール
GitHubページ を参照してください。
💻 使用例
基本的な使用法
🤗 Transformers を使用した複数ラウンドのチャットの例です。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("KangarooGroup/kangaroo")
model = AutoModelForCausalLM.from_pretrained(
"KangarooGroup/kangaroo",
torch_dtype=torch.bfloat16,
trust_remote_code=True,
)
model = model.to("cuda")
terminators = [tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>")]
video_path = "/path/to/video"
query = "Give a brief description of the video."
out, history = model.chat(video_path=video_path,
query=query,
tokenizer=tokenizer,
max_new_tokens=512,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,)
print('Assitant: \n', out)
query = "What happend at the end of the video?"
out, history = model.chat(video_path=video_path,
query=query,
history=history,
tokenizer=tokenizer,
max_new_tokens=512,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,)
print('Assitant: \n', out)
📖 引用
この研究があなたの研究に役立つ場合、以下の BibTeX を使用して関連する論文やブログを引用してください。
@misc{kangaroogroup,
title={Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input},
url={https://kangaroogroup.github.io/Kangaroo.github.io/},
author={Jiajun Liu and Yibing Wang and Hanghang Ma and Xiaoping Wu and Xiaoqi Ma and Jie Hu},
month={July},
year={2024}
}
📄 ライセンス
このプロジェクトは Apache-2.0 ライセンスの下で提供されています。