YiXin-Distill-Qwen-72B開源模型 - 優化數學與通用推理，高效解決難題

首頁

Yixin Distill Qwen 72B

由YiXin-AILab開發

專為數學與通用推理優化的高性能蒸餾模型，基於Qwen2.5-72B通過強化學習提煉而成

大型語言模型

Safetensors

支持多種語言開源協議:Apache-2.0 #數學推理優化 #多語言知識蒸餾 #漸進式兩階段蒸餾

下載量 38

發布時間 : 3/13/2025

模型概述

該模型特別針對數學推理和通用知識任務進行了優化，採用先進的蒸餾技術提升推理能力的同時保持計算效率。

模型特點

數學推理優化

特別針對數學推理任務進行優化，在數學基準測試中表現優異

通用知識理解

在通用知識任務中展現強大的理解和推理能力

高效蒸餾技術

採用漸進式兩階段蒸餾法，提升推理效率同時保持性能

多語言支持

支持13種語言，包括中文、英語、法語等

模型能力

數學問題解答

通用知識推理

多語言文本生成

逐步推理解釋

使用案例

教育

數學輔導

幫助學生理解和解決各類數學問題

在MATH-500測試中達到97.0%準確率

知識問答

回答各類通用知識問題

在MMLU-Pro測試中達到92.6%準確率

研究

科學問題分析

協助研究人員分析複雜的科學問題

在GPQA-Diamond測試中達到69.2%準確率

🚀 YiXin-Distill-Qwen-72B

YiXin-Distill-Qwen-72B 是一個高性能的蒸餾模型，基於Qwen2.5-72B使用強化學習技術衍生而來。它針對數學推理和常識知識任務進行了專門優化，在保持計算效率的同時，顯著提升了推理能力。

🚀 快速開始

本地運行方法

使用Hugging Face的Transformers庫

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
    {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

使用vLLM或SGLang

你可以使用 vLLM 輕鬆啟動服務：

vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager

你也可以使用 SGLang 啟動服務：

python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000

然後你可以通過以下方式訪問聊天API：

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
    "messages": [
        {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
        {"role": "user", "content": "8+8=?"}
    ]
    }'

✨ 主要特性

高性能蒸餾模型：基於Qwen2.5-72B，使用強化學習技術，在數學推理和常識知識任務上表現出色。
精心優化：針對數學推理和常識知識任務進行專門優化，提升推理能力的同時保持計算效率。
先進的蒸餾方法：採用漸進式兩階段蒸餾方法，通過智能數據選擇和優化迭代提升模型性能。

📦 安裝指南

文檔未提及具體安裝步驟，可參考上述快速開始部分的運行方法。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
    {"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

📚 詳細文檔

模型概述

YiXin-Distill-Qwen-72B：用於數學和通用推理的高性能蒸餾模型，它基於Qwen2.5-72B使用強化學習技術衍生而來。該模型針對數學推理和常識知識任務進行了專門優化，利用先進的蒸餾技術，在保持計算效率的同時增強了推理能力。基於強大的Qwen模型基礎，它旨在在各種基準評估中實現最先進的性能。我們的基準評估表明，YiXin-Distill-Qwen-72B表現出色，在關鍵的數學和通用推理任務中比同類蒸餾模型有顯著提升，平均提升了5至11個百分點。

訓練詳情

數據收集與處理

YiXin-Distill-Qwen-72B在精心策劃的高質量數據集上進行訓練，該數據集旨在提高數學推理和常識知識理解能力。數據處理流程遵循結構化的多階段方法，以確保模型的最佳性能，同時減少噪聲。

數據集聚合：基於現有的高質量開源數據集構建，涵蓋多個領域，包括數學和常識知識。
數據過濾和質量評估：我們實施了一個全面的質量控制框架，利用DeepSeek-R1作為大語言模型評判器來評估數據質量。評估標準包括：
- 難度級別：將數據樣本分為簡單、中等和困難三個等級，以確保在不同複雜度級別上的平衡表示。
- 真實值驗證：採用嚴格的驗證流程，確保數據集中答案的正確性。
- 質量評分：根據每個提示 - 響應對的複雜性、指令清晰度以及增強推理能力的潛力進行評估。
- 響應長度分析：排除未達到最小長度要求的響應，因為它們通常缺乏足夠的信息來提供有意義的訓練信號。
驗證和細化：對於主觀答案，我們使用基於大語言模型的評判器來驗證響應的質量和相關性。數學內容經過額外的驗證程序：
- 系統地驗證數學答案及其相應的解決方案。
- 使用評判模型評估每個解決方案過程，以確保數學推理的邏輯一致性和正確性。
- 對於存在邏輯漏洞或推理模式錯誤的解決方案，要麼進行糾正，要麼從訓練集中移除。

蒸餾過程

YiXin-Distill-Qwen-72B採用漸進式兩階段蒸餾方法，通過智能數據選擇和優化迭代提升模型性能。訓練框架不斷識別和移除高置信度樣本（即模型已經表現出色的情況），以減輕過擬合，同時迭代優化低置信度樣本，以強化薄弱的推理模式。通過多次微調循環和質量評估，該模型在數學和通用推理基準測試中實現了效率和準確性的平衡提升。

評估結果

YiXin-Distill-Qwen-72B在數學推理和常識知識任務上與多個模型進行了基準測試，包括QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1：

評估結果

屬性	詳情
模型類型	YiXin-Distill-Qwen-72B
訓練數據	精心策劃的高質量數據集，涵蓋數學和常識知識領域

指標	QwQ - 32B	DeepSeek - R1 - Distill - Qwen - 32B	DeepSeek - R1 - Distill - Llama - 70B	DeepSeek - R1	YiXin - Distill - Qwen - 72B
MATH - 500	96.2	91.2	94.0	94.4	97.0
GPQA - Diamond	62.6	62.1	62.6	74.8	69.2
AIME - 24	73.3	66.7	70.0	80.0	76.7
AIME - 25	63.3	60.0	46.7	63.3	73.3
MMLU - Pro	86.2	78.3	80.3	92.4	92.6
平均	76.3	71.7	70.7	81.0	81.8

YiXin-Distill-Qwen-72B在數學推理和常識知識任務上表現出顯著的提升。

侷限性

儘管YiXin-Distill-Qwen-72B表現出色，但它也存在一定的侷限性：

潛在的安全問題：YiXin-Distill-Qwen-72B可能容易受到對抗攻擊、提示注入和數據洩露的影響。對於敏感部署，建議採取適當的安全措施。
特定領域偏差：在不同領域的性能可能會有所不同，特別是在訓練數據中代表性不足的領域。
蒸餾過程中的潛在損失：在蒸餾過程中，教師模型的一些細微推理能力可能會降低。

引用

如果你在研究中使用了YiXin-Distill-Qwen-72B，請適當引用這項工作：

@misc{yixindistillqwen-72b,
  title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
  author={YiXin-AILab},
  year={2025},
  url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}