OpenR1-Distill-7B開源語言模型 - 助力語言模型實現逐步推理

首頁

Openr1 Distill 7B

由open-r1開發

OpenR1-Distill-7B是基於Qwen2.5-Math-7B在Mixture-of-Thoughts數據集上後訓練的版本，旨在教會語言模型進行逐步推理。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #數學推理 #編程輔助 #科學計算

下載量 134

發布時間 : 5/22/2025

模型概述

該模型復現了DeepSeek-R1-Distill-Qwen-7B的推理能力，同時保持完全開放和可復現性，適合研究推理時計算和可驗證獎勵的強化學習（RLVR）。

模型特點

逐步推理能力

通過Mixture-of-Thoughts數據集訓練，模型能夠進行復雜的逐步推理。

開放復現性

完全開放的數據集和訓練方法，確保結果可復現。

長上下文支持

RoPE基礎頻率擴展到300k，支持32k上下文的訓練。

模型能力

數學問題解答

編程任務解決

科學問題推理

多步推理生成

長文本理解

使用案例

教育

數學問題解答

幫助學生理解和解決複雜的數學問題。

在MATH-500基準測試上達到89.0%的準確率。

研究

推理時計算研究

用於研究推理時計算和可驗證獎勵的強化學習（RLVR）。

編程

代碼生成與理解

幫助開發者生成和理解複雜代碼。

在LiveCodeBench v5上達到39.4%的準確率。

🚀 OpenR1-Distill-7B模型

OpenR1-Distill-7B是基於特定數據集進行後訓練的模型，它在推理能力上有出色表現，並且完全開源可復現，適合用於推理時間計算和可驗證獎勵強化學習（RLVR）的研究。

🚀 快速開始

若要與模型進行對話，首先需要安裝🤗 Transformers庫：

pip install transformers>0.52

然後按如下方式運行聊天命令行界面：

transformers chat open-r1/OpenR1-Distill-7B \
    max_new_tokens=2048 \
    do_sample=True \
    temperature=0.6 \
    top_p=0.95

或者，使用pipeline()函數來運行模型：

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="open-r1/OpenR1-Distill-7B", torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "user", "content": "Which number is larger, 9.9 or 9.11?"},
]
outputs = pipe(messages, max_new_tokens=2048, do_sample=True, temperature=0.6, top_p=0.95, return_full_text=False)
print(outputs[0]["generated_text"])

✨ 主要特性

基於Qwen/Qwen2.5-Math-7B進行後訓練，在推理能力上可媲美deepseek-ai/DeepSeek-R1-Distill-Qwen-7B。
完全開源可復現，適合用於推理時間計算和可驗證獎勵強化學習（RLVR）的研究。

📦 安裝指南

要與模型進行交互，需先安裝🤗 Transformers庫：

pip install transformers>0.52

💻 使用示例

基礎用法

import torch
from transformers import pipeline

pipe = pipeline("text-generation", model="open-r1/OpenR1-Distill-7B", torch_dtype=torch.bfloat16, device_map="auto")

messages = [
    {"role": "user", "content": "Which number is larger, 9.9 or 9.11?"},
]
outputs = pipe(messages, max_new_tokens=2048, do_sample=True, temperature=0.6, top_p=0.95, return_full_text=False)
print(outputs[0]["generated_text"])

高級用法

transformers chat open-r1/OpenR1-Distill-7B \
    max_new_tokens=2048 \
    do_sample=True \
    temperature=0.6 \
    top_p=0.95

📚 詳細文檔

模型描述

屬性	詳情
模型類型	一個70億參數的類GPT模型，在公開可用的合成數據集混合上進行後訓練。
語言（NLP）	主要為英語
許可證	Apache 2.0
微調基礎模型	Qwen/Qwen2.5-Math-7B的一個變體，其RoPE基礎頻率擴展到300k，以支持32k標記的上下文訓練。

模型來源

倉庫：https://github.com/huggingface/open-r1
訓練日誌：https://wandb.ai/huggingface/open-r1/runs/199cum6l
評估日誌：https://huggingface.co/datasets/open-r1/details-open-r1_OpenR1-Distill-7B

性能

我們使用Lighteval在以下基準測試中評估模型：

模型	AIME 2024	MATH-500	GPQA Diamond	LiveCodeBench v5
OpenR1-Distill-7B	52.7	89.0	52.8	39.4
DeepSeek-R1-Distill-Qwen-7B	51.3	93.5	52.4	37.4

所有分數表示pass@1準確率，並使用temperature=0.6和top_p=0.95進行採樣。DeepSeek-R1技術報告使用每個查詢4 - 64個響應進行採樣以估計pass@1，但未指定每個基準測試的具體響應數量。在上述表格中，我們使用以下每個查詢的響應數量來估計pass@1準確率：

基準測試	每個查詢的響應數量
AIME 2024	64
MATH-500	4
GPQA Diamond	8
LiveCodeBench	16

訓練方法

OpenR1-Distill-7B在Mixture-of-Thoughts數據集上使用監督微調（SFT）進行訓練，該數據集包含從DeepSeek-R1中提取的35萬個推理軌跡。為了優化數據混合，我們遵循了Phi-4-reasoning技術報告中描述的方法，即可以獨立優化每個領域的混合，然後將其組合成一個單一的數據集。

訓練超參數

訓練期間使用的超參數如下：

num_epochs: 5.0
learning_rate: 4.0e-05
num_devices: 8
train_batch_size: 2
gradient_accumulation_steps: 8
total_train_batch_size: 2 * 8 * 8 = 128
seed: 42
distributed_type: DeepSpeed ZeRO-3
optimizer: Adam，betas=(0.9,0.999)，epsilon=1e-08
lr_scheduler_type: cosine_with_min_lr，min_lr_rate=0.1
lr_scheduler_warmup_ratio: 0.03
max_grad_norm: 0.2

訓練結果

訓練期間，我們每個epoch在AIME 2024、GPQA Diamond和LiveCodeBench v4上監控進度。以下是訓練結果圖：

框架版本

平臺：Linux-5.15.0-1049-aws-x86_64-with-glibc2.31
Python版本：3.11.11
TRL版本：0.18.0.dev0
PyTorch版本：2.6.0
Transformers版本：4.52.0.dev0
Accelerate版本：1.4.0
Datasets版本：3.5.1
HF Hub版本：0.30.2
bitsandbytes版本：0.45.5
DeepSpeed版本：0.16.8
Liger-Kernel版本：0.5.9
OpenAI版本：1.76.2
vLLM版本：0.8.4

🔧 技術細節

在訓練過程中，我們進行了一系列實驗來優化模型性能，包括擴展模型的基礎RoPE頻率、獨立縮放數學和代碼混合的學習率、測量序列打包的影響以及在不同數據集混合上進行訓練等。實驗結果表明，將RoPE基礎頻率擴展到300k在後續實驗中表現良好，並且在所有三個混合（數學、代碼和科學）上進行訓練可以獲得更好的性能。

📄 許可證

本模型使用Apache 2.0許可證。

引用

如果您發現此模型在您的工作中有用，請考慮按如下方式引用：

@misc{openr1,
    title = {Open R1: A fully open reproduction of DeepSeek-R1},
    url = {https://github.com/huggingface/open-r1},
    author = {Hugging Face},
    month = {January},
    year = {2025}
}