xGen-MM-Vid (BLIP-3-Video) は、効率的でコンパクトなビジュアル言語モデル(VLM)であり、明示的な時間エンコーダを備え、動画コンテンツの理解に特化しています。このモデルはSalesforce AI Researchによって開発され、そのキーポイントは、元の(画像ベースの)BLIP-3アーキテクチャに学習可能な時間エンコーダモジュールを組み込んだことです。
@misc{blip3video-xgenmmvid,
author = {Michael S. Ryoo and Honglu Zhou and Shrikant Kendre and Can Qin and Le Xue and Manli Shu and Silvio Savarese and Ran Xu and Caiming Xiong and Juan Carlos Niebles},
title = {xGen-MM-Vid (BLIP-3-Video): You Only Need 32 Tokens to Represent a Video Even in VLMs},
year = {2024},
eprint = {2410.16267},
archivePrefix = {arXiv},
primaryClass = {cs.CV},
url = {https://arxiv.org/abs/2410.16267},
}