T

Tarsier 34b

omni-researchによって開発
Tarsier-34bは、高品質なビデオ説明の生成に特化したオープンソースの大規模ビデオ言語モデルで、複数の公開ベンチマークでリーディングスコアを達成しています。
ダウンロード数 103
リリース時間 : 7/3/2024

モデル概要

Tarsier-34bは、高品質なビデオ説明を生成することを目的としたビデオ大規模言語モデルで、優れた汎用ビデオ理解能力も備えています。

モデル特徴

2段階トレーニング戦略
マルチタスク事前学習とマルチグレイン命令微調整の2段階トレーニング手法を採用
パラメータ効率的トレーニング
ViTパラメータを凍結し、投影層と大規模言語モデルパラメータのみをトレーニング
複数ベンチマークでリード
6つの公開ベンチマークでSOTA結果を達成

モデル能力

ビデオ説明生成
ビデオ質問応答
ビデオ理解
マルチモーダル推論

使用事例

ビデオコンテンツ分析
ビデオ自動説明生成
ビデオに対して高品質なテキスト説明を生成
DREAM-1Kなどのデータセットで優れたパフォーマンス
ビデオ質問応答システム
ビデオコンテンツに関する様々な質問に回答
MVBench、NeXT-QAなどのデータセットでリーディングスコアを達成
研究応用
マルチモーダルモデル研究
大規模マルチモーダルモデルの研究開発に使用
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase