E

Eagle2 9B

Developed by nvidia
Eagle2-9BはNVIDIAが発表した最新の視覚言語モデル(VLM)で、性能と推論速度の完璧なバランスを実現しています。Qwen2.5-7B-Instruct言語モデルとSiglip+ConvNext視覚モデルを基盤として構築され、多言語・マルチモーダルタスクをサポートします。
Downloads 944
Release Time : 1/10/2025

Model Overview

Eagle2-9Bは高性能なオープンソースの視覚言語モデルで、データセンター視点でのVLM後訓練の最適化に焦点を当てています。堅牢な訓練スキームとモデル設計を組み合わせ、多くのベンチマークテストで優れた性能を発揮します。

Model Features

高性能バランス
89億パラメータ規模で性能と推論速度の完璧なバランスを実現
マルチモーダル対応
テキスト、画像、動画入力をサポートし、様々なモダリティ情報を処理
長文脈処理
最大16Kトークンの文脈長をサポート
ベンチマークリーダー
複数の視覚言語ベンチマークで同類モデルを上回る性能

Model Capabilities

画像理解
テキスト生成
マルチモーダル対話
文書質問応答
図表理解
動画分析

Use Cases

文書処理
DocVQA文書質問応答
文書画像から情報を抽出し質問に回答
DocVQAテストセットで92.6点を達成
視覚的質問応答
TextVQAテキスト視覚的質問応答
画像中のテキスト内容に関する質問に回答
TextVQA検証セットで83.0点を達成
図表理解
ChartQA図表質問応答
図表データに基づく質問を理解し回答
ChartQAテストセットで86.4点を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase