Tarsier 7b
Tarsier-7b 是 Tarsier 系列的開源大規模視頻語言模型,專注於生成高質量視頻描述並具備優秀的通用視頻理解能力。
Downloads 635
Release Time : 7/4/2024
Model Overview
Tarsier-7b 是一個開源的大規模視頻語言模型,旨在生成高質量的視頻描述,同時具備優秀的通用視頻理解能力。它是 Tarsier 系列的一員,基於 liuhaotian/llava-v1.6-vicuna-7b 模型構建。
Model Features
高質量視頻描述生成
能夠生成高質量的視頻描述,適用於多種視頻內容。
通用視頻理解能力
具備優秀的通用視頻理解能力,在多個基準測試中表現優異。
兩階段訓練策略
採用多任務預訓練和多粒度指令微調的兩階段訓練策略,提升模型性能。
Model Capabilities
視頻描述生成
視頻問答
多粒度視頻理解
開放式視頻問答
視頻字幕生成
Use Cases
視頻內容分析
視頻描述生成
為視頻生成詳細的文字描述,適用於視頻內容索引和檢索。
高質量的視頻描述
視頻問答
回答關於視頻內容的複雜問題,適用於教育、娛樂等領域。
準確的視頻問答結果
視頻字幕生成
自動字幕生成
為視頻自動生成字幕,提升視頻的可訪問性。
高質量的字幕內容
Featured Recommended AI Models
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers Supports Multiple Languages

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers English

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 Chinese
R
uer
2,694
98