タルシアー34Bオープンソースビデオ言語モデル - 無料でデプロイして高品質のビデオ説明を生成

Tarsier 34b

omni-researchによって開発

Tarsier-34bは、高品質なビデオ説明の生成に特化したオープンソースの大規模ビデオ言語モデルで、複数の公開ベンチマークでリーディングスコアを達成しています。

ダウンロード数 103

リリース時間 : 7/3/2024

モデル概要

Tarsier-34bは、高品質なビデオ説明を生成することを目的としたビデオ大規模言語モデルで、優れた汎用ビデオ理解能力も備えています。

2段階トレーニング戦略

マルチタスク事前学習とマルチグレイン命令微調整の2段階トレーニング手法を採用

パラメータ効率的トレーニング

ViTパラメータを凍結し、投影層と大規模言語モデルパラメータのみをトレーニング

複数ベンチマークでリード

6つの公開ベンチマークでSOTA結果を達成

ビデオ説明生成

ビデオ質問応答

ビデオ理解

マルチモーダル推論

ビデオコンテンツ分析

ビデオ自動説明生成

ビデオに対して高品質なテキスト説明を生成

DREAM-1Kなどのデータセットで優れたパフォーマンス

ビデオ質問応答システム

ビデオコンテンツに関する様々な質問に回答

MVBench、NeXT-QAなどのデータセットでリーディングスコアを達成

研究応用

マルチモーダルモデル研究

大規模マルチモーダルモデルの研究開発に使用

タルシア-34bは、高品質な動画説明を生成することを目的としたオープンソースの大規模動画言語モデルです。一般的な動画理解能力も備えており、6つのオープンベンチマークでSOTAの結果を達成しています。

このモデルの使い方については、こちらを参照してください。

READMEにインストール手順が記載されていないため、このセクションを省略します。

READMEに使用例のコードが記載されていないため、このセクションを省略します。

属性	详情
モデルタイプ	タルシア-34bは、オープンソースの大規模動画言語モデルです。
モデル作成日	タルシア-34bは2024年6月に学習されました。
詳細情報の論文またはリソース	- GitHubリポジトリ: https://github.com/bytedance/tarsier - 論文リンク: https://arxiv.org/abs/2407.00634