🚀 OpenR1-Distill-7B模型
OpenR1-Distill-7B是基於特定數據集進行後訓練的模型,它在推理能力上有出色表現,並且完全開源可復現,適合用於推理時間計算和可驗證獎勵強化學習(RLVR)的研究。

🚀 快速開始
若要與模型進行對話,首先需要安裝🤗 Transformers庫:
pip install transformers>0.52
然後按如下方式運行聊天命令行界面:
transformers chat open-r1/OpenR1-Distill-7B \
max_new_tokens=2048 \
do_sample=True \
temperature=0.6 \
top_p=0.95
或者,使用pipeline()
函數來運行模型:
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="open-r1/OpenR1-Distill-7B", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "Which number is larger, 9.9 or 9.11?"},
]
outputs = pipe(messages, max_new_tokens=2048, do_sample=True, temperature=0.6, top_p=0.95, return_full_text=False)
print(outputs[0]["generated_text"])
✨ 主要特性
📦 安裝指南
要與模型進行交互,需先安裝🤗 Transformers庫:
pip install transformers>0.52
💻 使用示例
基礎用法
import torch
from transformers import pipeline
pipe = pipeline("text-generation", model="open-r1/OpenR1-Distill-7B", torch_dtype=torch.bfloat16, device_map="auto")
messages = [
{"role": "user", "content": "Which number is larger, 9.9 or 9.11?"},
]
outputs = pipe(messages, max_new_tokens=2048, do_sample=True, temperature=0.6, top_p=0.95, return_full_text=False)
print(outputs[0]["generated_text"])
高級用法
transformers chat open-r1/OpenR1-Distill-7B \
max_new_tokens=2048 \
do_sample=True \
temperature=0.6 \
top_p=0.95
📚 詳細文檔
模型描述
屬性 |
詳情 |
模型類型 |
一個70億參數的類GPT模型,在公開可用的合成數據集混合上進行後訓練。 |
語言(NLP) |
主要為英語 |
許可證 |
Apache 2.0 |
微調基礎模型 |
Qwen/Qwen2.5-Math-7B的一個變體,其RoPE基礎頻率擴展到300k,以支持32k標記的上下文訓練。 |
模型來源
- 倉庫:https://github.com/huggingface/open-r1
- 訓練日誌:https://wandb.ai/huggingface/open-r1/runs/199cum6l
- 評估日誌:https://huggingface.co/datasets/open-r1/details-open-r1_OpenR1-Distill-7B
性能
我們使用Lighteval在以下基準測試中評估模型:
模型 |
AIME 2024 |
MATH-500 |
GPQA Diamond |
LiveCodeBench v5 |
OpenR1-Distill-7B |
52.7 |
89.0 |
52.8 |
39.4 |
DeepSeek-R1-Distill-Qwen-7B |
51.3 |
93.5 |
52.4 |
37.4 |
所有分數表示pass@1準確率,並使用temperature=0.6
和top_p=0.95
進行採樣。DeepSeek-R1技術報告使用每個查詢4 - 64個響應進行採樣以估計pass@1,但未指定每個基準測試的具體響應數量。在上述表格中,我們使用以下每個查詢的響應數量來估計pass@1準確率:
基準測試 |
每個查詢的響應數量 |
AIME 2024 |
64 |
MATH-500 |
4 |
GPQA Diamond |
8 |
LiveCodeBench |
16 |
訓練方法
OpenR1-Distill-7B在Mixture-of-Thoughts數據集上使用監督微調(SFT)進行訓練,該數據集包含從DeepSeek-R1中提取的35萬個推理軌跡。為了優化數據混合,我們遵循了Phi-4-reasoning技術報告中描述的方法,即可以獨立優化每個領域的混合,然後將其組合成一個單一的數據集。
訓練超參數
訓練期間使用的超參數如下:
- num_epochs: 5.0
- learning_rate: 4.0e-05
- num_devices: 8
- train_batch_size: 2
- gradient_accumulation_steps: 8
- total_train_batch_size: 2 * 8 * 8 = 128
- seed: 42
- distributed_type: DeepSpeed ZeRO-3
- optimizer: Adam,betas=(0.9,0.999),epsilon=1e-08
- lr_scheduler_type: cosine_with_min_lr,min_lr_rate=0.1
- lr_scheduler_warmup_ratio: 0.03
- max_grad_norm: 0.2
訓練結果
訓練期間,我們每個epoch在AIME 2024、GPQA Diamond和LiveCodeBench v4上監控進度。以下是訓練結果圖:

框架版本
- 平臺:Linux-5.15.0-1049-aws-x86_64-with-glibc2.31
- Python版本:3.11.11
- TRL版本:0.18.0.dev0
- PyTorch版本:2.6.0
- Transformers版本:4.52.0.dev0
- Accelerate版本:1.4.0
- Datasets版本:3.5.1
- HF Hub版本:0.30.2
- bitsandbytes版本:0.45.5
- DeepSpeed版本:0.16.8
- Liger-Kernel版本:0.5.9
- OpenAI版本:1.76.2
- vLLM版本:0.8.4
🔧 技術細節
在訓練過程中,我們進行了一系列實驗來優化模型性能,包括擴展模型的基礎RoPE頻率、獨立縮放數學和代碼混合的學習率、測量序列打包的影響以及在不同數據集混合上進行訓練等。實驗結果表明,將RoPE基礎頻率擴展到300k在後續實驗中表現良好,並且在所有三個混合(數學、代碼和科學)上進行訓練可以獲得更好的性能。
📄 許可證
本模型使用Apache 2.0許可證。
引用
如果您發現此模型在您的工作中有用,請考慮按如下方式引用:
@misc{openr1,
title = {Open R1: A fully open reproduction of DeepSeek-R1},
url = {https://github.com/huggingface/open-r1},
author = {Hugging Face},
month = {January},
year = {2025}
}