C

Chat UniVi 7B V1.5

由Chat-UniVi開發
Chat-UniVi是一個統一視覺表徵的大語言模型,能夠同時理解圖像和視頻內容。
下載量 649
發布時間 : 4/12/2024

模型概述

Chat-UniVi通過動態視覺標記集統一表徵圖像和視頻,使大語言模型能夠同時處理兩種視覺媒介,在圖像和視頻理解任務上均表現出色。

模型特點

統一視覺表徵
採用動態視覺標記集統一表徵圖像和視頻,使模型能同時處理兩種視覺媒介
聯合訓練策略
在包含圖像和視頻的混合數據集上進行訓練,可直接應用於兩種媒介的任務
互補學習
圖像與視頻的聯合訓練使模型在兩種任務上均優於單一媒介專用模型

模型能力

視頻內容描述
圖像內容描述
視覺問答
跨模態理解

使用案例

內容理解
視頻內容摘要
自動生成視頻內容的文字描述
可準確捕捉視頻中的關鍵內容和時序關係
圖像描述生成
為圖像生成詳細文字描述
能識別圖像中的對象、場景和空間關係
智能交互
視覺問答
回答關於圖像或視頻內容的問題
能理解視覺內容並生成準確回答
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase