xGen-MM-Vid開源視覺語言模型 - 免費部署助力高效理解視頻內容

首頁

Xgen Mm Vid Phi3 Mini R V1.5 128tokens 8frames

由Salesforce開發

xGen-MM-Vid (BLIP-3-Video) 是一款高效的緊湊型視覺語言模型，配備了顯式的時間編碼器，專為理解視頻內容而設計。

視頻生成文本

Safetensors

英語#視頻理解 #緊湊型VLM #時間編碼器

下載量 398

發布時間 : 12/18/2024

模型概述

該模型由Salesforce AI Research開發，基於BLIP-3架構，融入了可學習的時間編碼器模塊，能夠處理8幀視頻輸入。

模型特點

高效視頻理解

配備了顯式的時間編碼器，專為理解視頻內容而設計。

緊湊型模型

高效的緊湊型視覺語言模型，適合資源有限的環境。

多幀處理能力

可以處理8幀視頻輸入，理論上支持任意幀數。

模型能力

視頻內容理解

多幀視頻處理

視覺語言任務

使用案例

視頻分析

視頻問答

在MSVD-QA數據集上進行視頻問答任務。

在視覺標記數量與準確性的權衡中表現優異。

🚀 xGen-MM-Vid (BLIP-3-Video) 模型

xGen-MM-Vid (BLIP-3-Video) 是一款高效緊湊的視覺語言模型（VLM），配備了顯式的時間編碼器，專門用於理解視頻內容。該模型由 Salesforce AI Research 開發，其核心亮點在於在原始（基於圖像）的 BLIP-3 架構中融入了可學習的時間編碼器模塊。

🚀 快速開始

本項目分享了經過訓練、可處理 8 幀視頻輸入的 128 個標記版本的模型。原則上，該模型能夠處理任意幀數的視頻，但訓練時使用的是 8 幀視頻。

相同模型的 32 標記版本可在 BLIP-3-Video 32 token model 找到。

如需瞭解更多詳細信息，請查看我們的技術報告。也可在博客文章中找到更詳細的解釋。

📚 詳細文檔

標記數量與準確率

上圖展示了包括 xGen-MM-Vid (BLIP-3-Video) 在內的各種視頻模型在 MSVD-QA 數據集上的視覺標記數量與準確率的權衡關係。

示例

💻 使用示例

請參考我們的推理腳本來使用我們的模型。此代碼庫基於 xGen-MM 構建。

🔧 技術細節

偏差、風險、限制和倫理考量

主要數據來源為互聯網，包括網頁、視頻素材網站以及研究社區發佈的精選數據集。該模型可能受到原始數據源的偏差影響，以及大語言模型（LLMs）和商業 API 的偏差影響。我們強烈建議用戶在將其應用於下游任務之前，評估其安全性和公平性。

倫理考量

本次發佈僅用於支持學術論文的研究目的。我們的模型、數據集和代碼並非專門為所有下游用途而設計或評估。我們強烈建議用戶在部署此模型之前，評估並解決與準確性、安全性和公平性相關的潛在問題。我們鼓勵用戶考慮人工智能的常見侷限性，遵守適用法律，並在選擇用例時採用最佳實踐，特別是在錯誤或濫用可能對人們的生活、權利或安全產生重大影響的高風險場景中。有關用例的進一步指導，請參考我們的可接受使用政策（AUP）和人工智能可接受使用政策（AI AUP）。

📄 許可證

我們的代碼和權重遵循 CC by-NC 4.0 許可證發佈。

📝 代碼致謝

我們的代碼/模型基於 xGen-MM 構建。

📚 引用

@misc{blip3video-xgenmmvid,
  author          = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
  title           = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs}, 
  year            = {2024},
  eprint          = {2410.16267},
  archivePrefix   = {arXiv},
  primaryClass    = {cs.CV},
  url             = {https://arxiv.org/abs/2410.16267}, 
}

⚙️ 故障排除

如果您缺少任何軟件包，請考慮執行以下操作：

pip install torch==2.2.1 torchvision==0.17.1 torchaudio==2.2.1 --index-url https://download.pytorch.org/whl/cu121
pip install open_clip_torch==2.24.0
pip install einops
pip install einops-exts
pip install transformers==4.41.1