E

Eagle2.5 8B

由nvidia開發
Eagle 2.5是一款前沿的視覺語言模型(VLM),專為長上下文多模態學習設計,支持處理長達512幀的視頻序列和高分辨率圖像。
下載量 2,626
發布時間 : 4/12/2025

模型概述

Eagle 2.5解決了長視頻理解和高分辨率圖像理解的挑戰,提供了通用框架,在多個基準測試中表現優異。

模型特點

長上下文處理能力
支持處理長達512幀的視頻序列和高分辨率圖像,解決了現有大多數VLM專注於短上下文任務的侷限。
信息優先採樣
通過圖像區域保留(IAP)和自動降級採樣(ADS)優化視覺和文本輸入,確保在不丟失信息的前提下最大化利用上下文長度。
漸進式混合後訓練
在訓練過程中逐漸增加上下文長度,從32K擴展到128K,增強模型處理不同輸入大小的能力。
多樣性驅動的數據配方
結合開源數據和自主策劃的Eagle-Video-110K數據集,提供豐富多樣的訓練樣本。
效率優化
通過GPU內存優化、分佈式上下文並行、視頻解碼加速和推理加速等技術,顯著提升模型的計算效率和推理速度。

模型能力

長視頻理解
高分辨率圖像理解
多模態學習
文本生成
圖像分析
視頻分析

使用案例

視頻理解
長視頻內容分析
分析長達512幀的視頻內容,提取關鍵信息和故事線。
在多個視頻基準測試中達到SOTA水平。
視頻問答
根據視頻內容回答相關問題。
在Video-MME上使用512輸入幀時達到72.4%的準確率。
圖像理解
高分辨率圖像分析
處理高分辨率圖像,提取細粒度細節。
在多個圖像基準測試中表現優異,與Qwen2.5-VL表現相當。
文檔理解
解析多頁文檔內容,提取關鍵信息。
在DocVQA測試中達到94.1%的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase