E

Eagle X5 7B

NVEagleによって開発
Eagleは、視覚を中心とした高解像度マルチモーダル大規模言語モデルのシリーズで、1K以上の入力解像度をサポートし、光学文字認識やドキュメント理解などのタスクで優れた性能を発揮します。
ダウンロード数 918
リリース時間 : 8/23/2024

モデル概要

Eagleは、ハイブリッド視覚エンコーダと異なる入力解像度を通じて、マルチモーダル大規模言語モデルの知覚能力を強化する方法を探求しています。チャネル連結に基づく'CLIP+X'融合方式を採用し、異なるアーキテクチャと知識領域の視覚専門家を統合します。

モデル特徴

高解像度処理
1K以上の入力解像度をサポートし、OCRやドキュメント理解などの解像度に敏感なタスクに特に適しています。
マルチモーダル融合
'CLIP+X'融合方式を採用し、異なるアーキテクチャ(ViT/畳み込みネットワーク)と知識領域(検出/セグメンテーション/OCR/自己教師あり学習)の視覚専門家を統合します。
ハイブリッド視覚エンコーダ
ハイブリッド視覚エンコーダと異なる入力解像度を通じて、マルチモーダル大規模言語モデルの知覚能力を包括的に強化します。

モデル能力

画像理解
テキスト生成
光学文字認識
ドキュメント理解
マルチモーダル対話

使用事例

ドキュメント処理
ドキュメント内容理解
スキャンされたドキュメントやPDFの内容と構造を解析・理解する
ドキュメント理解タスクで優れた性能を発揮
画像記述
画像内容記述
入力画像に基づいて詳細なテキスト記述を生成する
画像の内容と詳細を正確に記述可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase