O

Openr1 Distill 7B

由open-r1開發
OpenR1-Distill-7B是基於Qwen2.5-Math-7B在Mixture-of-Thoughts數據集上後訓練的版本,旨在教會語言模型進行逐步推理。
下載量 134
發布時間 : 5/22/2025

模型概述

該模型復現了DeepSeek-R1-Distill-Qwen-7B的推理能力,同時保持完全開放和可復現性,適合研究推理時計算和可驗證獎勵的強化學習(RLVR)。

模型特點

逐步推理能力
通過Mixture-of-Thoughts數據集訓練,模型能夠進行復雜的逐步推理。
開放復現性
完全開放的數據集和訓練方法,確保結果可復現。
長上下文支持
RoPE基礎頻率擴展到300k,支持32k上下文的訓練。

模型能力

數學問題解答
編程任務解決
科學問題推理
多步推理生成
長文本理解

使用案例

教育
數學問題解答
幫助學生理解和解決複雜的數學問題。
在MATH-500基準測試上達到89.0%的準確率。
研究
推理時計算研究
用於研究推理時計算和可驗證獎勵的強化學習(RLVR)。
編程
代碼生成與理解
幫助開發者生成和理解複雜代碼。
在LiveCodeBench v5上達到39.4%的準確率。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase