E

Eagle2.5 8B

由 nvidia 开发
Eagle 2.5是一款前沿的视觉语言模型(VLM),专为长上下文多模态学习设计,支持处理长达512帧的视频序列和高分辨率图像。
下载量 2,626
发布时间 : 4/12/2025

模型简介

Eagle 2.5解决了长视频理解和高分辨率图像理解的挑战,提供了通用框架,在多个基准测试中表现优异。

模型特点

长上下文处理能力
支持处理长达512帧的视频序列和高分辨率图像,解决了现有大多数VLM专注于短上下文任务的局限。
信息优先采样
通过图像区域保留(IAP)和自动降级采样(ADS)优化视觉和文本输入,确保在不丢失信息的前提下最大化利用上下文长度。
渐进式混合后训练
在训练过程中逐渐增加上下文长度,从32K扩展到128K,增强模型处理不同输入大小的能力。
多样性驱动的数据配方
结合开源数据和自主策划的Eagle-Video-110K数据集,提供丰富多样的训练样本。
效率优化
通过GPU内存优化、分布式上下文并行、视频解码加速和推理加速等技术,显著提升模型的计算效率和推理速度。

模型能力

长视频理解
高分辨率图像理解
多模态学习
文本生成
图像分析
视频分析

使用案例

视频理解
长视频内容分析
分析长达512帧的视频内容,提取关键信息和故事线。
在多个视频基准测试中达到SOTA水平。
视频问答
根据视频内容回答相关问题。
在Video-MME上使用512输入帧时达到72.4%的准确率。
图像理解
高分辨率图像分析
处理高分辨率图像,提取细粒度细节。
在多个图像基准测试中表现优异,与Qwen2.5-VL表现相当。
文档理解
解析多页文档内容,提取关键信息。
在DocVQA测试中达到94.1%的准确率。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase