T

Tarsier 7b

Developed by omni-research
Tarsier-7b 是 Tarsier 系列的開源大規模視頻語言模型,專注於生成高質量視頻描述並具備優秀的通用視頻理解能力。
Downloads 635
Release Time : 7/4/2024

Model Overview

Tarsier-7b 是一個開源的大規模視頻語言模型,旨在生成高質量的視頻描述,同時具備優秀的通用視頻理解能力。它是 Tarsier 系列的一員,基於 liuhaotian/llava-v1.6-vicuna-7b 模型構建。

Model Features

高質量視頻描述生成
能夠生成高質量的視頻描述,適用於多種視頻內容。
通用視頻理解能力
具備優秀的通用視頻理解能力,在多個基準測試中表現優異。
兩階段訓練策略
採用多任務預訓練和多粒度指令微調的兩階段訓練策略,提升模型性能。

Model Capabilities

視頻描述生成
視頻問答
多粒度視頻理解
開放式視頻問答
視頻字幕生成

Use Cases

視頻內容分析
視頻描述生成
為視頻生成詳細的文字描述,適用於視頻內容索引和檢索。
高質量的視頻描述
視頻問答
回答關於視頻內容的複雜問題,適用於教育、娛樂等領域。
準確的視頻問答結果
視頻字幕生成
自動字幕生成
為視頻自動生成字幕,提升視頻的可訪問性。
高質量的字幕內容
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase