LLaMA-VID多モーダルチャットボットがオープンソース化！数時間に及ぶ長いビデオの処理に対応、無料で利用可能

ホーム

Llama Vid 7b Full 224 Video Fps 1

YanweiLiによって開発

LLaMA-VIDはLLaMA/Vicunaをファインチューニングしたオープンソースのマルチモーダルチャットボットで、拡張されたコンテキストトークンにより数時間に及ぶ動画処理をサポートします。

テキスト生成ビデオ

Transformers

#超長動画理解 #マルチモーダル指示追従 #学術研究専用

ダウンロード数 86

リリース時間 : 11/29/2023

モデル概要

LLaMA-VIDは視覚言語モデルで、追加のコンテキストトークンにより既存フレームワークを強化し、超長動画処理を可能にするとともに性能限界を突破します。LLaVAアーキテクチャを基盤としており、大規模マルチモーダルモデルやチャットボットの学術研究に主に使用されます。

モデル特徴

超長動画処理

拡張されたコンテキストトークンにより数時間に及ぶ動画コンテンツの処理をサポート

マルチモーダル理解

動画とテキスト情報を同時処理し、クロスモーダル理解を実現

オープンソースアーキテクチャ

オープンソースのLLaMA/VicunaとLLaVAアーキテクチャを基盤に構築

モデル能力

動画コンテンツ理解

マルチモーダル対話

長尺動画分析

視覚的質問応答

使用事例

学術研究

動画理解研究

コンピュータビジョンと自然言語処理のクロス領域研究に使用

マルチモーダルモデル開発

より先進的なマルチモーダルモデル開発の基盤として

教育

教育動画分析

長尺教育動画の内容を自動分析し関連質問に回答

🚀 LLaMA-VIDモデルカード

LLaMA-VIDは、既存のフレームワークに長時間のビデオをサポートさせ、追加のコンテキストトークンでその上限を引き上げるモデルです。

📚 詳細ドキュメント

モデルの詳細

LLaMA-VIDは、既存のフレームワークに長時間のビデオをサポートさせ、追加のコンテキストトークンでその上限を引き上げます。

モデルの種類 LLaMA-VIDは、GPTで生成されたマルチモーダル命令追従データ上でLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。LLaMA-VIDは、既存のフレームワークに長時間のビデオをサポートさせ、追加のコンテキストトークンでその上限を引き上げます。このリポジトリはLLaVAに基づいて構築されています。

モデルの作成日 llama-vid-7b-full-224-video-fps-1は2023年11月に学習されました。

ライセンス

モデルに関する質問やコメントの送信先 https://github.com/dvlab-research/LLaMA-VID/issues

想定される用途

主な想定用途 LLaMA-VIDの主な用途は、大規模マルチモーダルモデルとチャットボットの研究です。

主な想定ユーザー このモデルの主な想定ユーザーは、コンピュータビジョン、自然言語処理、機械学習、人工知能の研究者や愛好家です。

学習データ

このモデルは、LLaVA - 1.5データセットの画像データと、WebVidおよびActivityNetデータセットのビデオデータに基づいて学習されています。以下に含まれます。

BLIPによってキャプション付けされたLAION/CC/SBUからの558Kのフィルタリングされた画像 - テキストペア。
158KのGPT生成マルチモーダル命令追従データ。
450Kの学術タスク指向のVQAデータミックス。
40KのShareGPTデータ。
WebVid 2.5Mデータセットからサンプリングされた232Kのビデオ - キャプションペア。
Video - ChatGPTからのQAペア付きのActivityNetからの98Kのビデオ。

属性	详情
モデルの種類	LLaMA-VIDは、GPTで生成されたマルチモーダル命令追従データ上でLLaMA/Vicunaをファインチューニングすることで学習されたオープンソースのチャットボットです。
学習データ	このモデルは、LLaVA - 1.5データセットの画像データと、WebVidおよびActivityNetデータセットのビデオデータに基づいて学習されています。