Tarsier-7b開源視頻語言模型 - 免費生成高質量視頻描述，具備通用理解能力

首頁

Tarsier 7b

由omni-research開發

Tarsier-7b 是 Tarsier 系列的開源大規模視頻語言模型，專注於生成高質量視頻描述並具備優秀的通用視頻理解能力。

視頻生成文本

Transformers

#視頻描述生成 #多模態理解 #開源大模型

下載量 635

發布時間 : 7/4/2024

模型概述

Tarsier-7b 是一個開源的大規模視頻語言模型，旨在生成高質量的視頻描述，同時具備優秀的通用視頻理解能力。它是 Tarsier 系列的一員，基於 liuhaotian/llava-v1.6-vicuna-7b 模型構建。

模型特點

高質量視頻描述生成

能夠生成高質量的視頻描述，適用於多種視頻內容。

通用視頻理解能力

具備優秀的通用視頻理解能力，在多個基準測試中表現優異。

兩階段訓練策略

採用多任務預訓練和多粒度指令微調的兩階段訓練策略，提升模型性能。

模型能力

視頻描述生成

視頻問答

多粒度視頻理解

開放式視頻問答

視頻字幕生成

使用案例

視頻內容分析

視頻描述生成

為視頻生成詳細的文字描述，適用於視頻內容索引和檢索。

高質量的視頻描述

視頻問答

回答關於視頻內容的複雜問題，適用於教育、娛樂等領域。

準確的視頻問答結果

視頻字幕生成

自動字幕生成

為視頻自動生成字幕，提升視頻的可訪問性。

高質量的字幕內容

🚀 跗猴模型卡片

跗猴（Tarsier）模型是一個開源的大規模視頻語言模型，能夠生成高質量的視頻描述，具備出色的通用視頻理解能力。其中，跗猴 - 34b 在 6 個公開基準測試中取得了最優成績。

🚀 快速開始

如需使用該模型，請參考：使用說明

✨ 主要特性

多模態研究：主要用於大型多模態模型的研究，特別是視頻描述任務。
廣泛用戶群體：適用於計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	跗猴 - 7b 是跗猴家族中的一員，屬於開源的大規模視頻語言模型，旨在生成高質量的視頻描述，並具備良好的通用視頻理解能力（跗猴 - 34b 在 6 個公開基準測試中取得了最優成績）。基礎大語言模型：[liuhaotian/llava - v1.6 - vicuna - 7b](https://huggingface.co/liuhaotian/llava - v1.6 - vicuna - 7b)
模型日期	跗猴 - 7b 於 2024 年 6 月完成訓練。
更多信息的論文或資源	- GitHub 倉庫：https://github.com/bytedance/tarsier - 論文鏈接：https://arxiv.org/abs/2407.00634

預期用途

主要預期用途

跗猴模型的主要用途是進行大型多模態模型的研究，尤其是視頻描述相關的研究。

主要預期用戶

該模型的主要預期用戶是計算機視覺、自然語言處理、機器學習和人工智能領域的研究人員和愛好者。

訓練數據集

跗猴模型採用兩階段訓練策略：

階段一：在 1300 萬條數據上進行多任務預訓練。
階段二：在 50 萬條數據上進行多粒度指令微調。

在兩個階段中，我們凍結了視覺變換器（ViT），並訓練投影層和大語言模型（LLM）的所有參數。

評估數據集

具有挑戰性的視頻描述數據集：[DREAM - 1K](https://huggingface.co/datasets/omni - research/DREAM - 1K)
多項選擇視頻問答：MVBench、[NeXT - QA](https://github.com/doc - doc/NExT - QA) 和 Egoschema
開放式視頻問答：MSVD - QA、[MSR - VTT - QA](https://opendatalab.com/OpenDataLab/MSR - VTT)、[ActivityNet - QA](https://github.com/MILVLG/activitynet - qa) 和 [TGIF - QA](https://opendatalab.com/OpenDataLab/TGIF - QA)
視頻字幕生成：MSVD - Caption、[MSRVTT - Caption](https://opendatalab.com/OpenDataLab/MSR - VTT)、[VATEX](https://eric - xw.github.io/vatex - website/about.html)