Tarsier-34b開源視頻語言模型 - 免費部署生成高質量視頻描述

Tarsier 34b

由omni-research開發

Tarsier-34b 是一個開源的大規模視頻語言模型，專注於生成高質量的視頻描述，並在多個公開基準測試中取得領先成績。

下載量 103

發布時間 : 7/3/2024

模型概述

Tarsier-34b 是一個視頻大語言模型，旨在生成高質量的視頻描述，同時具備優秀的通用視頻理解能力。

兩階段訓練策略

採用多任務預訓練和多粒度指令微調的兩階段訓練方法

參數高效訓練

凍結ViT參數，僅訓練投影層和大語言模型參數

多基準測試領先

在6個公開基準測試中取得SOTA結果

視頻描述生成

視頻問答

視頻理解

多模態推理

視頻內容分析

視頻自動描述生成

為視頻生成高質量的文字描述

在DREAM-1K等數據集上表現優異

視頻問答系統

回答關於視頻內容的各類問題

在MVBench、NeXT-QA等數據集上取得領先成績

研究應用

多模態模型研究

用於大型多模態模型的研究和開發

屬性	詳情
模型類型	Tarsier-34b是一個開源的大規模視頻語言模型，旨在生成高質量的視頻描述，同時具備出色的通用視頻理解能力（在6個公開基準測試中取得了SOTA結果）。
模型日期	Tarsier-34b於2024年6月進行訓練。
更多信息的論文或資源	- GitHub倉庫：https://github.com/bytedance/tarsier - 論文鏈接：https://arxiv.org/abs/2407.00634