V

VL3 SigLIP NaViT

DAMO-NLP-SGによって開発
VideoLLaMA3のビジュアルエンコーダで、任意解像度ビジュアルトークン化(AVT)技術を採用し、異なる解像度の画像や動画を動的に処理します。
ダウンロード数 25.55k
リリース時間 : 1/21/2025

モデル概要

このモデルはVideoLLaMA3のビジュアルエンコーダとして、2D-RoPE技術を用いて異なる解像度の画像や動画を処理し、ビジュアルトークンにより多くの情報を注入します。

モデル特徴

任意解像度ビジュアルトークン化(AVT)
2D-RoPE技術により、異なる解像度の画像や動画を動的に処理
マルチモーダルサポート
画像や動画データを処理可能で、マルチモーダル大規模言語モデルにビジュアル特徴を提供
高性能ビジュアルエンコーディング
特に文書理解タスクにおいて、複数のベンチマークテストで優れた性能を発揮

モデル能力

画像特徴抽出
動画特徴抽出
マルチモーダルデータ処理
高解像度画像処理

使用事例

ビジュアル質問応答
文書理解
文書画像の内容を解析・理解
DocVQA検証セットで31.32の精度を達成
図表理解
図表画像の情報を分析・解釈
ChartQAデータセットで22.44の精度を達成
マルチモーダル大規模言語モデル
VideoLLaMA3ビジュアルエンコーディング
VideoLLaMA3のビジュアルフロントエンドとして、入力画像や動画を処理
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase