D

Deepeyes 7B

由ChenShawn開發
DeepEyes是一個通過強化學習激勵'以圖思考'的視覺語言模型,能夠將視覺信息直接融入推理鏈,在圖像文本處理任務中表現出色。
下載量 383
發布時間 : 5/20/2025

模型概述

DeepEyes通過端到端強化學習訓練,無需冷啟動或有監督微調,即可習得'以圖思考'的能力。它在視覺定位、幻覺緩解和數學問題解決等任務中展現出強大的泛化能力。

模型特點

以圖思考能力
通過端到端強化學習習得,直接由結果獎勵信號引導,無需冷啟動或有監督微調
視覺定位能力提升
在強化學習訓練階段,定位IoU和工具調用準確率都有所提高
高分辨率處理能力
在高分辨率基準測試中帶來顯著性能提升
智能思考模式
訓練過程中自然湧現出小物體視覺搜索、跨區域視覺比較等思考模式

模型能力

圖像理解與分析
視覺推理
視覺定位
幻覺緩解
數學問題解決
高分辨率圖像處理

使用案例

視覺問答
複雜圖像問答
對包含複雜視覺信息的圖像進行準確問答
在高分辨率基準測試中表現優異
視覺定位
目標定位
在圖像中準確定位特定目標
定位IoU指標有所提升
數學問題解決
視覺數學題
解決包含視覺信息的數學問題
展現出強大的泛化能力
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase