X

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

由Salesforce開發
xGen-MM-Vid (BLIP-3-Video) 是一款高效的緊湊型視覺語言模型,配備了顯式的時間編碼器,專為理解視頻內容而設計。
下載量 398
發布時間 : 12/18/2024

模型概述

該模型由Salesforce AI Research開發,基於BLIP-3架構,融入了可學習的時間編碼器模塊,能夠處理8幀視頻輸入。

模型特點

高效視頻理解
配備了顯式的時間編碼器,專為理解視頻內容而設計。
緊湊型模型
高效的緊湊型視覺語言模型,適合資源有限的環境。
多幀處理能力
可以處理8幀視頻輸入,理論上支持任意幀數。

模型能力

視頻內容理解
多幀視頻處理
視覺語言任務

使用案例

視頻分析
視頻問答
在MSVD-QA數據集上進行視頻問答任務。
在視覺標記數量與準確性的權衡中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase