D

Deepeyes 7B

由 ChenShawn 开发
DeepEyes是一个通过强化学习激励'以图思考'的视觉语言模型,能够将视觉信息直接融入推理链,在图像文本处理任务中表现出色。
下载量 383
发布时间 : 5/20/2025

模型简介

DeepEyes通过端到端强化学习训练,无需冷启动或有监督微调,即可习得'以图思考'的能力。它在视觉定位、幻觉缓解和数学问题解决等任务中展现出强大的泛化能力。

模型特点

以图思考能力
通过端到端强化学习习得,直接由结果奖励信号引导,无需冷启动或有监督微调
视觉定位能力提升
在强化学习训练阶段,定位IoU和工具调用准确率都有所提高
高分辨率处理能力
在高分辨率基准测试中带来显著性能提升
智能思考模式
训练过程中自然涌现出小物体视觉搜索、跨区域视觉比较等思考模式

模型能力

图像理解与分析
视觉推理
视觉定位
幻觉缓解
数学问题解决
高分辨率图像处理

使用案例

视觉问答
复杂图像问答
对包含复杂视觉信息的图像进行准确问答
在高分辨率基准测试中表现优异
视觉定位
目标定位
在图像中准确定位特定目标
定位IoU指标有所提升
数学问题解决
视觉数学题
解决包含视觉信息的数学问题
展现出强大的泛化能力
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase