Kangarooオープンソースマルチモーダル大規模言語モデル - 双言語チャットサポート、長編ビデオ理解を支援！

ホーム

Kangaroo

KangarooGroupによって開発

カンガルーは長編動画理解のために設計された強力なマルチモーダル大規模言語モデルで、中国語と英語のバイリンガル対話と長編動画入力に対応しています。

ビデオ生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #長編動画理解 #バイリンガル対話 #マルチモーダル大規模モデル

ダウンロード数 163

リリース時間 : 7/11/2024

モデル概要

カンガルーモデルは動画理解タスクに特化しており、動画の説明、質問応答、対話を含み、特に長編動画の処理に優れており、最大160フレームをサポートします。

モデル特徴

長編動画入力サポート

160フレームまでの入力能力を拡張し、異なるフレーム数とアスペクト比の動画を革新的に処理

優れたパフォーマンス

複数の動画理解ベンチマークテストでSOTAレベルを達成または超越

動画アノテーションシステム

データ選別と自動アノテーションシステムを開発し、大規模な動画-テキストデータセットを生成

バイリンガル対話能力

中国語と英語のシングルターン/マルチターン動画対話をサポート

モデル能力

動画コンテンツ記述

動画質問応答

動画対話

長編動画理解

中英バイリンガル処理

使用事例

動画コンテンツ分析

動画要約生成

動画コンテンツのテキスト要約を自動生成

動画のキーコンテンツを正確に捕捉可能

インテリジェントカスタマーサポート

動画製品質問応答

動画中の製品に関する様々な質問に回答

正確な製品情報を提供

🚀 Kangaroo: 長文脈のビデオ入力をサポートする強力なビデオ言語モデル

Kangaroo がリリースされました。詳細は、論文、ブログ、GitHub をご覧ください。

📚 概要

我々は、長文脈のビデオ理解のために設計された強力なマルチモーダル大規模言語モデルである Kangaroo を紹介します。提案する Kangaroo モデルは、ビデオキャプション、QA、会話などの様々なビデオ理解タスクで卓越した性能を示します。一般的に、本研究における主要な貢献は以下の通りです。

長文脈のビデオ入力。モデルがより長いビデオを理解する能力を高めるために、入力ビデオの最大フレーム数を 160 に拡張しました。そのために、フレーム数とアスペクト比が異なる複数のビデオを 1 つのサンプルに集約します。さらに、空間時間パス化モジュールを設計して、トレーニング効率を向上させます。
高い性能。様々なビデオ理解ベンチマークでモデルを評価しました。結果は、我々のモデルが大多数の包括的なベンチマークで最先端の性能を達成し、他のベンチマークでも競争力のあるレベルを維持していることを示しています。特に、我々のモデルは、30B 以上のパラメータを持つほとんどの大規模なオープンソースモデルや、特定のベンチマークでいくつかの独自モデルを上回っています。
ビデオアノテーションシステム。オープンソースおよび内部ビデオにキャプションを生成するためのデータキュレーションと自動アノテーションシステムを開発しました。生成された大規模なデータセットは、ビデオテキストの事前学習に利用されます。ビデオ命令微調整段階では、様々なタスクをカバーする公開および内部データセットに基づいて、ビデオ命令微調整データセットを構築します。
双言語会話。提案するモデルは、中国語、英語、および双言語会話の機能を備えており、単一/複数ラウンドの会話パラダイムをサポートします。

🚀 クイックスタート

📦 インストール

GitHubページを参照してください。

💻 使用例

基本的な使用法

🤗 Transformers を使用した複数ラウンドのチャットの例です。

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("KangarooGroup/kangaroo")
model = AutoModelForCausalLM.from_pretrained(
    "KangarooGroup/kangaroo",
    torch_dtype=torch.bfloat16,
    trust_remote_code=True,
)
model = model.to("cuda")
terminators = [tokenizer.eos_token_id, tokenizer.convert_tokens_to_ids("<|eot_id|>")]

video_path = "/path/to/video"

# Round 1
query = "Give a brief description of the video."
out, history = model.chat(video_path=video_path,
                          query=query,
                          tokenizer=tokenizer,
                          max_new_tokens=512,
                          eos_token_id=terminators,
                          do_sample=True,
                          temperature=0.6,
                          top_p=0.9,)
print('Assitant: \n', out)

# Round 2
query = "What happend at the end of the video?"
out, history = model.chat(video_path=video_path,
                          query=query,
                          history=history,
                          tokenizer=tokenizer,
                          max_new_tokens=512,
                          eos_token_id=terminators,
                          do_sample=True,
                          temperature=0.6,
                          top_p=0.9,)
print('Assitant: \n', out)

📖 引用

この研究があなたの研究に役立つ場合、以下の BibTeX を使用して関連する論文やブログを引用してください。

@misc{kangaroogroup,
    title={Kangaroo: A Powerful Video-Language Model Supporting Long-context Video Input},
    url={https://kangaroogroup.github.io/Kangaroo.github.io/},
    author={Jiajun Liu and Yibing Wang and Hanghang Ma and Xiaoping Wu and Xiaoqi Ma and Jie Hu},
    month={July},
    year={2024}
}