C

Chat UniVi 13B

由Chat-UniVi開發
Chat-UniVi是一個統一視覺表徵的大語言模型,能夠同時理解圖像和視頻內容。
下載量 57
發布時間 : 11/21/2023

模型概述

Chat-UniVi通過動態視覺標記統一表徵圖像和視頻,使大語言模型能夠高效處理兩種視覺媒介,在圖像和視頻理解任務上均表現出色。

模型特點

統一視覺表徵
採用動態視覺標記統一表徵圖像和視頻,高效利用有限視覺標記捕捉空間細節和時序關係
聯合訓練策略
在包含圖像和視頻的混合數據集上訓練,可直接應用於兩種媒介任務
高性能互補學習
作為統一模型,性能優於專為圖像或視頻設計的專用方法

模型能力

圖像理解
視頻理解
視覺問答
視頻描述生成
圖像描述生成

使用案例

內容理解
視頻內容描述
自動生成視頻內容的文字描述
生成準確描述視頻內容的文本
圖像內容分析
分析圖像內容並回答相關問題
提供準確的圖像內容理解和回答
媒體處理
視頻摘要
從長視頻中提取關鍵內容生成摘要
生成簡潔準確的視頻摘要
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase