D

Deepeyes 7B

ChenShawnによって開発
DeepEyesは、強化学習によって「画像を用いた思考」を促す視覚言語モデルで、視覚情報を直接推論チェーンに組み込むことができ、画像テキスト処理タスクで優れた性能を発揮します。
ダウンロード数 383
リリース時間 : 5/20/2025

モデル概要

DeepEyesは、エンドツーエンドの強化学習によって訓練され、コールドスタートや教師あり微調整を必要とせずに、「画像を用いた思考」の能力を習得することができます。視覚的位置決め、幻覚緩和、数学問題解決などのタスクで強力な汎化能力を示します。

モデル特徴

画像を用いた思考能力
エンドツーエンドの強化学習によって習得され、直接結果の報酬信号によって導かれ、コールドスタートや教師あり微調整を必要としません
視覚的位置決め能力の向上
強化学習の訓練段階で、位置決めのIoUとツール呼び出しの正解率が向上します
高解像度処理能力
高解像度のベンチマークテストで著しい性能向上をもたらします
スマートな思考モード
訓練過程で、小物体の視覚探索、跨領域の視覚比較などの思考モードが自然に出現します

モデル能力

画像理解と分析
視覚推論
視覚的位置決め
幻覚緩和
数学問題解決
高解像度画像処理

使用事例

視覚的質問応答
複雑な画像の質問応答
複雑な視覚情報を含む画像に対して正確な質問応答を行う
高解像度のベンチマークテストで優れた性能を示します
視覚的位置決め
目標の位置決め
画像内で特定の目標を正確に位置決めする
位置決めのIoU指標が向上します
数学問題解決
視覚的な数学問題
視覚情報を含む数学問題を解く
強力な汎化能力を示します
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase