VL3 - SigLIP - NaViT オープンソースビジュアルエンコーダ - 様々な解像度の画像や動画を動的に処理する

ホーム

VL3 SigLIP NaViT

DAMO-NLP-SGによって開発

VideoLLaMA3のビジュアルエンコーダで、任意解像度ビジュアルトークン化(AVT)技術を採用し、異なる解像度の画像や動画を動的に処理します。

テキスト生成画像

Transformers

英語オープンソースライセンス:Apache-2.0 #任意解像度ビジュアルトークン化 #マルチモーダル動画理解 #動的画像処理

ダウンロード数 25.55k

リリース時間 : 1/21/2025

モデル概要

このモデルはVideoLLaMA3のビジュアルエンコーダとして、2D-RoPE技術を用いて異なる解像度の画像や動画を処理し、ビジュアルトークンにより多くの情報を注入します。

モデル特徴

任意解像度ビジュアルトークン化(AVT)

2D-RoPE技術により、異なる解像度の画像や動画を動的に処理

マルチモーダルサポート

画像や動画データを処理可能で、マルチモーダル大規模言語モデルにビジュアル特徴を提供

高性能ビジュアルエンコーディング

特に文書理解タスクにおいて、複数のベンチマークテストで優れた性能を発揮

モデル能力

画像特徴抽出

動画特徴抽出

マルチモーダルデータ処理

高解像度画像処理

使用事例

ビジュアル質問応答

文書理解

文書画像の内容を解析・理解

DocVQA検証セットで31.32の精度を達成

図表理解

図表画像の情報を分析・解釈

ChartQAデータセットで22.44の精度を達成

マルチモーダル大規模言語モデル

VideoLLaMA3ビジュアルエンコーディング

VideoLLaMA3のビジュアルフロントエンドとして、入力画像や動画を処理

🚀 transformers

このモデルは、VideoLLaMA3における視覚エンコーダとして機能し、様々な解像度の画像や動画を動的に処理することができます。

VideoLLaMA 3: Frontier Multimodal Foundation Models for Video Understandingの視覚エンコーダ

もし当プロジェクトが気に入っていただけたら、Githubでスター⭐をして最新情報をゲットしてください。

🌟 紹介

このモデルは、VideoLLaMA3の視覚エンコーダとして機能します。

VideoLLaMA3は、Any-resolution Vision Tokenization (AVT) アプローチを利用して、様々な解像度の画像や動画を動的に処理します。これは、事前学習されたビジョンエンコーダ（ViTアーキテクチャに基づく）を適応させ、ViTで従来使用されていた絶対位置埋め込みの代わりに2D-RoPE（Rotary Position Embeddings）を使用することで実現されます。

AVTにより、VideoLLaMA3は異なる解像度で画像や動画をより詳細に表現することができ、ビジョントークンにより多くの情報を含めることができます。AVTとのシームレスな統合を確保するために、ビジョンエンコーダとプロジェクターの両方を、Vision Encoder Adaptation段階（VideoLLaMA3トレーニングパイプラインの段階 #1）で、シーン画像、ドキュメントデータ、およびテキスト付きのシーン画像を使用してファインチューニングします。

トレーニング前に、モデルのパラメータとアーキテクチャはSigLipから初期化されます。

🚀 モデルの性能

ベースモデル	GQA	AI2D	ChartQA	DocVQA_val	MME
clip-vit-large-patch14-336	61.50	56.28	18.32	24.86	1668.41
dfn5B-clip-vit-h-14-378	62.70	56.87	16.40	23.09	1665.35
siglip-so400m-patch14-384 (当実装)	62.92	57.12	22.44	31.32	1667.92

より詳細な分析は、当研究論文paperで確認できます。

🚀 クイックスタート

import torch
from transformers import AutoModel, AutoImageProcessor
from transformers.image_utils import load_image

model_name = "DAMO-NLP-SG/VL3-SigLIP-NaViT"
image_path = "https://github.com/DAMO-NLP-SG/VideoLLaMA3/blob/main/assets/sora.png?raw=true"
images = load_image(image_path)

model = AutoModel.from_pretrained(
    model_name,
    trust_remote_code=True,
    device_map="auto",
    torch_dtype=torch.bfloat16,
    attn_implementation="flash_attention_2",
)
processor = AutoImageProcessor.from_pretrained(model_name, trust_remote_code=True)

inputs = processor(images=images, merge_size=1)
inputs = {k: torch.tensor(v).cuda() for k, v in inputs.items()}
if "pixel_values" in inputs:
    inputs["pixel_values"] = inputs["pixel_values"].to(torch.bfloat16)
image_features = model(**inputs)

引用

もしVideoLLaMAがあなたの研究やアプリケーションに役立つと思われる場合は、次のBibTeXを使用して引用してください。

@article{damonlpsg2025videollama3,
  title={VideoLLaMA 3: Frontier Multimodal Foundation Models for Image and Video Understanding},
  author={Boqiang Zhang, Kehan Li, Zesen Cheng, Zhiqiang Hu, Yuqian Yuan, Guanzheng Chen, Sicong Leng, Yuming Jiang, Hang Zhang, Xin Li, Peng Jin, Wenqi Zhang, Fan Wang, Lidong Bing, Deli Zhao},
  journal={arXiv preprint arXiv:2501.13106},
  year={2025},
  url = {https://arxiv.org/abs/2501.13106}
}

@article{damonlpsg2024videollama2,
  title={VideoLLaMA 2: Advancing Spatial-Temporal Modeling and Audio Understanding in Video-LLMs},
  author={Cheng, Zesen and Leng, Sicong and Zhang, Hang and Xin, Yifei and Li, Xin and Chen, Guanzheng and Zhu, Yongxin and Zhang, Wenqi and Luo, Ziyang and Zhao, Deli and Bing, Lidong},
  journal={arXiv preprint arXiv:2406.07476},
  year={2024},
  url = {https://arxiv.org/abs/2406.07476}
}

@article{damonlpsg2023videollama,
  title = {Video-LLaMA: An Instruction-tuned Audio-Visual Language Model for Video Understanding},
  author = {Zhang, Hang and Li, Xin and Bing, Lidong},
  journal = {arXiv preprint arXiv:2306.02858},
  year = {2023},
  url = {https://arxiv.org/abs/2306.02858}
}