E

Eagle X5 7B

由NVEagle開發
Eagle 是一系列以視覺為中心的高分辨率多模態大語言模型,支持高達1K以上的輸入分辨率,在光學字符識別和文檔理解等任務上表現出色。
下載量 918
發布時間 : 8/23/2024

模型概述

Eagle 通過混合視覺編碼器和不同輸入分辨率,探索增強多模態大語言模型的感知能力。採用基於通道拼接的'CLIP+X'融合方式,整合不同架構和知識領域的視覺專家。

模型特點

高分辨率處理
支持高達1K以上的輸入分辨率,特別適合對分辨率敏感的任務如OCR和文檔理解。
多模態融合
採用'CLIP+X'融合方式,整合不同架構(ViT/卷積網絡)和知識領域(檢測/分割/OCR/自監督學習)的視覺專家。
混合視覺編碼器
通過混合視覺編碼器和不同輸入分辨率,全面探索增強多模態大語言模型的感知能力。

模型能力

圖像理解
文本生成
光學字符識別
文檔理解
多模態對話

使用案例

文檔處理
文檔內容理解
解析和理解掃描文檔或PDF中的內容和結構
在文檔理解任務中表現出色
圖像描述
圖像內容描述
根據輸入圖像生成詳細的文本描述
能夠準確描述圖像內容和細節
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase