模型概述
模型特點
模型能力
使用案例
🚀 YiXin-Distill-Qwen-72B
YiXin-Distill-Qwen-72B 是一個高性能的蒸餾模型,基於Qwen2.5-72B使用強化學習技術衍生而來。它針對數學推理和常識知識任務進行了專門優化,在保持計算效率的同時,顯著提升了推理能力。
🚀 快速開始
本地運行方法
使用Hugging Face的Transformers庫
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
使用vLLM或SGLang
你可以使用 vLLM 輕鬆啟動服務:
vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager
你也可以使用 SGLang 啟動服務:
python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000
然後你可以通過以下方式訪問聊天API:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
"messages": [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": "8+8=?"}
]
}'
✨ 主要特性
- 高性能蒸餾模型:基於Qwen2.5-72B,使用強化學習技術,在數學推理和常識知識任務上表現出色。
- 精心優化:針對數學推理和常識知識任務進行專門優化,提升推理能力的同時保持計算效率。
- 先進的蒸餾方法:採用漸進式兩階段蒸餾方法,通過智能數據選擇和優化迭代提升模型性能。
📦 安裝指南
文檔未提及具體安裝步驟,可參考上述快速開始部分的運行方法。
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 詳細文檔
模型概述
YiXin-Distill-Qwen-72B:用於數學和通用推理的高性能蒸餾模型,它基於Qwen2.5-72B使用強化學習技術衍生而來。該模型針對數學推理和常識知識任務進行了專門優化,利用先進的蒸餾技術,在保持計算效率的同時增強了推理能力。基於強大的Qwen模型基礎,它旨在在各種基準評估中實現最先進的性能。我們的基準評估表明,YiXin-Distill-Qwen-72B表現出色,在關鍵的數學和通用推理任務中比同類蒸餾模型有顯著提升,平均提升了5至11個百分點。
訓練詳情
數據收集與處理
YiXin-Distill-Qwen-72B在精心策劃的高質量數據集上進行訓練,該數據集旨在提高數學推理和常識知識理解能力。數據處理流程遵循結構化的多階段方法,以確保模型的最佳性能,同時減少噪聲。
- 數據集聚合:基於現有的高質量開源數據集構建,涵蓋多個領域,包括數學和常識知識。
- 數據過濾和質量評估:我們實施了一個全面的質量控制框架,利用DeepSeek-R1作為大語言模型評判器來評估數據質量。評估標準包括:
- 難度級別:將數據樣本分為簡單、中等和困難三個等級,以確保在不同複雜度級別上的平衡表示。
- 真實值驗證:採用嚴格的驗證流程,確保數據集中答案的正確性。
- 質量評分:根據每個提示 - 響應對的複雜性、指令清晰度以及增強推理能力的潛力進行評估。
- 響應長度分析:排除未達到最小長度要求的響應,因為它們通常缺乏足夠的信息來提供有意義的訓練信號。
- 驗證和細化:對於主觀答案,我們使用基於大語言模型的評判器來驗證響應的質量和相關性。數學內容經過額外的驗證程序:
- 系統地驗證數學答案及其相應的解決方案。
- 使用評判模型評估每個解決方案過程,以確保數學推理的邏輯一致性和正確性。
- 對於存在邏輯漏洞或推理模式錯誤的解決方案,要麼進行糾正,要麼從訓練集中移除。
蒸餾過程
YiXin-Distill-Qwen-72B採用漸進式兩階段蒸餾方法,通過智能數據選擇和優化迭代提升模型性能。訓練框架不斷識別和移除高置信度樣本(即模型已經表現出色的情況),以減輕過擬合,同時迭代優化低置信度樣本,以強化薄弱的推理模式。通過多次微調循環和質量評估,該模型在數學和通用推理基準測試中實現了效率和準確性的平衡提升。
評估結果
YiXin-Distill-Qwen-72B在數學推理和常識知識任務上與多個模型進行了基準測試,包括QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1:
屬性 | 詳情 |
---|---|
模型類型 | YiXin-Distill-Qwen-72B |
訓練數據 | 精心策劃的高質量數據集,涵蓋數學和常識知識領域 |
指標 | QwQ - 32B | DeepSeek - R1 - Distill - Qwen - 32B | DeepSeek - R1 - Distill - Llama - 70B | DeepSeek - R1 | YiXin - Distill - Qwen - 72B |
---|---|---|---|---|---|
MATH - 500 | 96.2 | 91.2 | 94.0 | 94.4 | 97.0 |
GPQA - Diamond | 62.6 | 62.1 | 62.6 | 74.8 | 69.2 |
AIME - 24 | 73.3 | 66.7 | 70.0 | 80.0 | 76.7 |
AIME - 25 | 63.3 | 60.0 | 46.7 | 63.3 | 73.3 |
MMLU - Pro | 86.2 | 78.3 | 80.3 | 92.4 | 92.6 |
平均 | 76.3 | 71.7 | 70.7 | 81.0 | 81.8 |
YiXin-Distill-Qwen-72B在數學推理和常識知識任務上表現出顯著的提升。
侷限性
儘管YiXin-Distill-Qwen-72B表現出色,但它也存在一定的侷限性:
- 潛在的安全問題:YiXin-Distill-Qwen-72B可能容易受到對抗攻擊、提示注入和數據洩露的影響。對於敏感部署,建議採取適當的安全措施。
- 特定領域偏差:在不同領域的性能可能會有所不同,特別是在訓練數據中代表性不足的領域。
- 蒸餾過程中的潛在損失:在蒸餾過程中,教師模型的一些細微推理能力可能會降低。
引用
如果你在研究中使用了YiXin-Distill-Qwen-72B,請適當引用這項工作:
@misc{yixindistillqwen-72b,
title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
author={YiXin-AILab},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
致謝
我們感謝開源社區和研究人員的貢獻,他們開發和維護了Qwen和DeepSeek模型。他們的工作顯著推動了大語言模型蒸餾和推理能力領域的發展。
📄 許可證
本項目採用Apache-2.0許可證。



