O

Openhands Critic 32b Exp 20250417

由all-hands開發
基於Qwen2.5-Coder-32B-Instruct微調的評審模型,用於評估代碼解決方案質量,助力SWE-Bench基準測試取得SOTA成績
下載量 194
發布時間 : 4/16/2025

模型概述

專為軟件工程任務設計的評審模型,通過時序差分學習目標評估代碼補丁質量,支持多軌跡擇優選擇

模型特點

推理時擴展優化
通過生成多個解決方案並擇優選取,將SWE-Bench性能從60.6%提升至66.4%
時序差分學習
採用TD學習目標將單元測試信號反向傳播至整個軌跡,實現精準獎勵預測
真實場景泛化
相比提示工程方案,訓練後的評審模型可泛化至SWE-Bench之外的軟件工程場景

模型能力

代碼質量評估
多方案擇優
軟件問題修復
單元測試通過率預測

使用案例

軟件開發輔助
SWE-Bench問題解決
評估GitHub真實問題的代碼補丁質量
在SWE-Bench Verified基準達到66.4%通過率
編程智能體優化
為OpenHands智能體提供中間獎勵信號
支持即時錯誤恢復和單步前瞻採樣
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase