C

Chat UniVi

由Chat-UniVi開發
Chat-UniVi是一個統一視覺表徵的大語言模型,能夠同時理解圖像和視頻內容。
下載量 12.10k
發布時間 : 9/28/2023

模型概述

Chat-UniVi通過動態視覺標記集統一表徵圖像和視頻,使大語言模型能夠同時處理兩種視覺媒介的理解任務。

模型特點

統一視覺表徵
採用動態視覺標記集統一表徵圖像和視頻,同時捕捉空間細節和時序關係
聯合訓練策略
在包含圖像和視頻的混合數據集上進行訓練,可直接應用於兩種媒介的任務
互補學習優勢
圖像與視頻的聯合訓練帶來互補學習效果,性能優於單一媒介專用模型

模型能力

視頻內容理解
圖像內容理解
多模態對話
視覺問答
視頻描述生成
圖像描述生成

使用案例

內容理解
視頻內容摘要
自動生成視頻內容的文字描述和摘要
可準確捕捉視頻中的關鍵事件和時序關係
圖像內容分析
理解圖像中的對象、場景和關係
能詳細描述圖像內容和空間關係
智能交互
多模態對話系統
基於視覺內容的自然語言對話
能理解用戶問題並基於視覺內容給出合理回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase