T

Thinkprm 1.5B

由launch開發
ThinkPRM-1.5B是基於R1-Distill-Qwen-1.5B架構的生成式過程獎勵模型,能夠通過生成驗證思維鏈對推理過程進行逐步驗證。
下載量 68
發布時間 : 4/25/2025

模型概述

該模型專為驗證逐步推理過程的正確性設計,能夠生成顯式的驗證思維鏈併為每一步驟標註正確性,具有極高的數據效率和強勁性能。

模型特點

數據效率高
相比傳統判別式PRM所需監督數據量顯著減少,僅需1千例合成生成的驗證思維鏈數據集進行微調。
生成式驗證
通過生成自然語言評述和正確性判斷提供步驟級驗證評分,具有可解釋性。
多領域適用
已在數學推理、科學問答和代碼生成領域完成評估,性能優於基線模型。

模型能力

生成驗證思維鏈
步驟級正確性判斷
解決方案評分
獨立驗證問題-解決方案對

使用案例

數學推理
數學解題步驟驗證
驗證數學解題步驟的正確性,如解方程、證明等。
在MATH-500、AIME '24等基準測試中表現優異。
代碼生成
代碼驗證
驗證生成的代碼邏輯是否正確。
在LiveCodeBench基準測試中表現優異。
科學問答
科學問題解答驗證
驗證科學問題解答步驟的正確性。
在GPQA-Diamond基準測試中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase