模型简介
模型特点
模型能力
使用案例
🚀 YiXin-Distill-Qwen-72B
YiXin-Distill-Qwen-72B 是一个高性能的蒸馏模型,基于Qwen2.5-72B使用强化学习技术衍生而来。它针对数学推理和常识知识任务进行了专门优化,在保持计算效率的同时,显著提升了推理能力。
🚀 快速开始
本地运行方法
使用Hugging Face的Transformers库
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
使用vLLM或SGLang
你可以使用 vLLM 轻松启动服务:
vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager
你也可以使用 SGLang 启动服务:
python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000
然后你可以通过以下方式访问聊天API:
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
"messages": [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": "8+8=?"}
]
}'
✨ 主要特性
- 高性能蒸馏模型:基于Qwen2.5-72B,使用强化学习技术,在数学推理和常识知识任务上表现出色。
- 精心优化:针对数学推理和常识知识任务进行专门优化,提升推理能力的同时保持计算效率。
- 先进的蒸馏方法:采用渐进式两阶段蒸馏方法,通过智能数据选择和优化迭代提升模型性能。
📦 安装指南
文档未提及具体安装步骤,可参考上述快速开始部分的运行方法。
💻 使用示例
基础用法
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
📚 详细文档
模型概述
YiXin-Distill-Qwen-72B:用于数学和通用推理的高性能蒸馏模型,它基于Qwen2.5-72B使用强化学习技术衍生而来。该模型针对数学推理和常识知识任务进行了专门优化,利用先进的蒸馏技术,在保持计算效率的同时增强了推理能力。基于强大的Qwen模型基础,它旨在在各种基准评估中实现最先进的性能。我们的基准评估表明,YiXin-Distill-Qwen-72B表现出色,在关键的数学和通用推理任务中比同类蒸馏模型有显著提升,平均提升了5至11个百分点。
训练详情
数据收集与处理
YiXin-Distill-Qwen-72B在精心策划的高质量数据集上进行训练,该数据集旨在提高数学推理和常识知识理解能力。数据处理流程遵循结构化的多阶段方法,以确保模型的最佳性能,同时减少噪声。
- 数据集聚合:基于现有的高质量开源数据集构建,涵盖多个领域,包括数学和常识知识。
- 数据过滤和质量评估:我们实施了一个全面的质量控制框架,利用DeepSeek-R1作为大语言模型评判器来评估数据质量。评估标准包括:
- 难度级别:将数据样本分为简单、中等和困难三个等级,以确保在不同复杂度级别上的平衡表示。
- 真实值验证:采用严格的验证流程,确保数据集中答案的正确性。
- 质量评分:根据每个提示 - 响应对的复杂性、指令清晰度以及增强推理能力的潜力进行评估。
- 响应长度分析:排除未达到最小长度要求的响应,因为它们通常缺乏足够的信息来提供有意义的训练信号。
- 验证和细化:对于主观答案,我们使用基于大语言模型的评判器来验证响应的质量和相关性。数学内容经过额外的验证程序:
- 系统地验证数学答案及其相应的解决方案。
- 使用评判模型评估每个解决方案过程,以确保数学推理的逻辑一致性和正确性。
- 对于存在逻辑漏洞或推理模式错误的解决方案,要么进行纠正,要么从训练集中移除。
蒸馏过程
YiXin-Distill-Qwen-72B采用渐进式两阶段蒸馏方法,通过智能数据选择和优化迭代提升模型性能。训练框架不断识别和移除高置信度样本(即模型已经表现出色的情况),以减轻过拟合,同时迭代优化低置信度样本,以强化薄弱的推理模式。通过多次微调循环和质量评估,该模型在数学和通用推理基准测试中实现了效率和准确性的平衡提升。
评估结果
YiXin-Distill-Qwen-72B在数学推理和常识知识任务上与多个模型进行了基准测试,包括QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B和DeepSeek-R1:
属性 | 详情 |
---|---|
模型类型 | YiXin-Distill-Qwen-72B |
训练数据 | 精心策划的高质量数据集,涵盖数学和常识知识领域 |
指标 | QwQ - 32B | DeepSeek - R1 - Distill - Qwen - 32B | DeepSeek - R1 - Distill - Llama - 70B | DeepSeek - R1 | YiXin - Distill - Qwen - 72B |
---|---|---|---|---|---|
MATH - 500 | 96.2 | 91.2 | 94.0 | 94.4 | 97.0 |
GPQA - Diamond | 62.6 | 62.1 | 62.6 | 74.8 | 69.2 |
AIME - 24 | 73.3 | 66.7 | 70.0 | 80.0 | 76.7 |
AIME - 25 | 63.3 | 60.0 | 46.7 | 63.3 | 73.3 |
MMLU - Pro | 86.2 | 78.3 | 80.3 | 92.4 | 92.6 |
平均 | 76.3 | 71.7 | 70.7 | 81.0 | 81.8 |
YiXin-Distill-Qwen-72B在数学推理和常识知识任务上表现出显著的提升。
局限性
尽管YiXin-Distill-Qwen-72B表现出色,但它也存在一定的局限性:
- 潜在的安全问题:YiXin-Distill-Qwen-72B可能容易受到对抗攻击、提示注入和数据泄露的影响。对于敏感部署,建议采取适当的安全措施。
- 特定领域偏差:在不同领域的性能可能会有所不同,特别是在训练数据中代表性不足的领域。
- 蒸馏过程中的潜在损失:在蒸馏过程中,教师模型的一些细微推理能力可能会降低。
引用
如果你在研究中使用了YiXin-Distill-Qwen-72B,请适当引用这项工作:
@misc{yixindistillqwen-72b,
title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
author={YiXin-AILab},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
致谢
我们感谢开源社区和研究人员的贡献,他们开发和维护了Qwen和DeepSeek模型。他们的工作显著推动了大语言模型蒸馏和推理能力领域的发展。
📄 许可证
本项目采用Apache-2.0许可证。



