O

Openhands Critic 32b Exp 20250417

all-handsによって開発
Qwen2.5-Coder-32B-Instructをファインチューニングしたレビューモデルで、コードソリューションの品質評価に使用され、SWE-BenchベンチマークでSOTA成績を達成
ダウンロード数 194
リリース時間 : 4/16/2025

モデル概要

ソフトウェアエンジニアリングタスク専用に設計されたレビューモデルで、時間差学習目標によりコードパッチの品質を評価し、マルチトラジェクト選択をサポート

モデル特徴

推論時拡張最適化
複数のソリューションを生成し最適なものを選択することで、SWE-Benchの性能を60.6%から66.4%に向上
時間差学習
TD学習目標を使用してユニットテスト信号をトラジェクト全体に逆伝播し、正確な報酬予測を実現
実シナリオ汎化
プロンプトエンジニアリングソリューションと比較し、トレーニング後のレビューモデルはSWE-Bench以外のソフトウェアエンジニアリングシナリオに汎化可能

モデル能力

コード品質評価
マルチソリューション選択
ソフトウェア問題修正
ユニットテスト通過率予測

使用事例

ソフトウェア開発支援
SWE-Bench問題解決
GitHubの実際の問題に対するコードパッチの品質を評価
SWE-Bench Verifiedベンチマークで66.4%の通過率を達成
プログラミングエージェント最適化
OpenHandsエージェントに中間報酬信号を提供
リアルタイムエラー回復とシングルステップ先読みサンプリングをサポート
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase