V

VL3 SigLIP NaViT

由DAMO-NLP-SG開發
VideoLLaMA3的視覺編碼器,採用任意分辨率視覺標記化(AVT)技術,動態處理不同分辨率的圖像和視頻。
下載量 25.55k
發布時間 : 1/21/2025

模型概述

本模型作為VideoLLaMA3的視覺編碼器,採用2D-RoPE技術處理不同分辨率的圖像和視頻,為視覺標記注入更多信息。

模型特點

任意分辨率視覺標記化(AVT)
動態處理不同分辨率的圖像和視頻,通過2D-RoPE技術實現
多模態支持
能夠處理圖像和視頻數據,為多模態大語言模型提供視覺特徵
高性能視覺編碼
在多個基準測試中表現優異,特別是在文檔理解任務上

模型能力

圖像特徵提取
視頻特徵提取
多模態數據處理
高分辨率圖像處理

使用案例

視覺問答
文檔理解
解析和理解文檔圖像中的內容
在DocVQA驗證集上達到31.32的準確率
圖表理解
分析和解釋圖表圖像中的信息
在ChartQA數據集上達到22.44的準確率
多模態大語言模型
VideoLLaMA3視覺編碼
作為VideoLLaMA3的視覺前端,處理輸入圖像和視頻
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase