M

Monkey

由echo840開發
猴子模型是一種高效的大型多模態模型,通過提升圖像分辨率和改進文本標籤方法,在多個視覺任務中表現優異。
下載量 308
發布時間 : 11/22/2023

模型概述

猴子模型專注於提升圖像分辨率至896×1344像素,並採用多層級描述生成方法,以增強對場景和對象上下文關聯的理解能力。

模型特點

高分辨率支持
支持1344×896分辨率輸入,超越常規448×448分辨率,顯著提升對微小物體、密集對象及文本的識別理解能力
多層級描述生成
創新性地設計多層級描述生成方法,自動提供豐富信息以引導模型學習場景與對象的上下文關聯
上下文關聯推理
在問答時展現出卓越的目標關係推理能力,輸出更具洞察力的綜合結果

模型能力

高分辨率圖像理解
詳細圖像描述生成
視覺問答
文檔圖像處理
上下文關聯推理

使用案例

圖像理解
詳細圖像描述
為圖像生成包含細節的文本描述
描述準確度可超越GPT4V
文檔處理
密集文本理解
處理包含密集文本的文檔圖像
展現出卓越性能
視覺問答
通用視覺問答
回答關於圖像內容的各種問題
在16個多樣化數據集測試中表現優異
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase