E

Eagle2.5 8B

nvidiaによって開発
Eagle 2.5は、長いコンテキストのマルチモーダル学習向けに設計された最先端のビジュアル言語モデル(VLM)で、最大512フレームのビデオシーケンスと高解像度画像の処理をサポートします。
ダウンロード数 2,626
リリース時間 : 4/12/2025

モデル概要

Eagle 2.5は、長いビデオの理解と高解像度画像の理解に関する課題を解決し、汎用的なフレームワークを提供し、複数のベンチマークテストで優れた性能を発揮します。

モデル特徴

長いコンテキストの処理能力
最大512フレームのビデオシーケンスと高解像度画像の処理をサポートし、現在のほとんどのVLMが短いコンテキストのタスクに焦点を当てている限界を解消します。
情報優先サンプリング
画像領域保持(IAP)と自動ダウンサンプリング(ADS)によってビジュアルとテキストの入力を最適化し、情報を失うことなくコンテキストの長さを最大限に活用します。
漸進的混合事後学習
学習過程で徐々にコンテキストの長さを32Kから128Kに拡張し、モデルが異なる入力サイズを処理する能力を強化します。
多様性駆動のデータ構成
オープンソースデータと独自に策定したEagle-Video-110Kデータセットを組み合わせて、豊富で多様な学習サンプルを提供します。
効率最適化
GPUメモリの最適化、分散コンテキスト並列、ビデオデコードの高速化、推論の高速化などの技術により、モデルの計算効率と推論速度を大幅に向上させます。

モデル能力

長いビデオの理解
高解像度画像の理解
マルチモーダル学習
テキスト生成
画像分析
ビデオ分析

使用事例

ビデオ理解
長いビデオの内容分析
最大512フレームのビデオ内容を分析し、重要な情報とストーリーラインを抽出します。
複数のビデオベンチマークテストでSOTAレベルに達します。
ビデオ質問応答
ビデオ内容に基づいて関連する質問に回答します。
Video-MMEで512入力フレームを使用すると、72.4%の正解率を達成します。
画像理解
高解像度画像分析
高解像度画像を処理し、細かい詳細を抽出します。
複数の画像ベンチマークテストで優れた性能を発揮し、Qwen2.5-VLと同等の性能を示します。
文書理解
複数ページの文書内容を解析し、重要な情報を抽出します。
DocVQAテストで94.1%の正解率を達成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase