🚀 32B推理模型
本项目是一个基于特定优化的32B推理模型,在保持准确性的同时显著减少生成长度,为数学和编码等领域的推理任务提供高效解决方案。
🚀 快速开始
您可以参考我们的 博客文章 以获取更多关于该模型的详细信息。
✨ 主要特性
这是一个在 Sky-T1-32B-Preview 基础上进行偏好优化的32B推理模型,能够在保持准确性的同时显著减少生成长度。在数学和编码方面,其性能与 o1-preview 模型相当,相对于 Sky-T1-32B-Preview,生成长度最多可减少57%。
📦 安装指南
文档未提及安装步骤,暂无法提供。
📚 详细文档
模型详情
模型描述
这是一个在 Sky-T1-32B-Preview 基础上进行偏好优化的32B推理模型,旨在显著减少生成长度,同时保持准确性。在数学和编码方面,其性能与 o1-preview 模型相当,相对于 Sky-T1-32B-Preview,生成长度最多可减少57%。
- 开发者:来自加州大学伯克利分校天空计算实验室的 NovaSky 团队。
训练详情
训练数据
在数学和编码领域有10K个偏好对,由 Sky-T1-32B-Preview 生成。
训练过程
我们使用简单策略优化(SimPO)进行训练,批量大小为96,学习率为5e - 7,gamma 为0.3,beta 为2.0。
训练速度
我们使用 Llama - Factory 进行训练。在8xH100上,使用 DeepSpeed Zero - 3 Offload 进行 SimPO 训练大约需要2.5小时。
评估
评估指标 |
子指标 |
Sky-T1-32B-Preview |
Sky-T1-32B-Flash |
Qwen2.5-32B-Instruct |
QwQ-32B- Base |
DeepSeek-R1-Distill-Qwen-32B |
Math500 |
Acc |
88.6 |
88.6 |
76.2 |
89.2 |
90.8 |
|
Avg Len |
2124 |
1417 (-33%) |
522 |
2089 |
2010 |
AIME24 |
Acc |
43.3 |
43.3 |
16.7 |
50 |
66.7 |
|
Avg Len |
6881 |
4365 (-37%) |
970 |
7379 |
9173 |
LCB Easy |
Acc |
87.4 |
89 |
84.6 |
90.7 |
91.2 |
|
Avg Len |
3415 |
2265 (-34%) |
414 |
3255 |
2775 |
LCB Medium |
Acc |
56.8 |
56.3 |
40.8 |
56.3 |
76.7 |
|
Avg Len |
8263 |
4389 (-47%) |
535 |
6742 |
6324 |
LCB Hard |
Acc |
17.9 |
17.9 |
9.8 |
17.1 |
38.2 |
|
Avg Len |
14564 |
6199 (-57%) |
618 |
10450 |
10448 |
MMLU |
Acc |
82.4 |
81.7 |
80.1 |
85.2 |
82.1 |
|
Avg Len |
1087 |
799 (-17%) |
312 |
1041 |
774 |
GPQA Diamond |
Acc |
56.8 |
56.6 |
45.5 |
52.5 |
62.6 |
|
Avg Len |
3503 |
2148 (-39%) |
600 |
3302 |
5108 |
致谢
我们感谢 Lambda Lab 和 AnyScale 提供的计算资源。
许可证
本项目采用 Apache - 2.0 许可证。
引用
如果您认为我们的博客文章对您的研究有帮助,请考虑引用。谢谢!
@misc{reduce_overthinking_2025,
author = {NovaSky Team},
title = {Think Less, Achieve More: Cut Reasoning Costs by 50% Without Sacrificing Accuracy},
howpublished = {https://novasky-ai.github.io/posts/reduce-overthinking},
note = {Accessed: 2025-01-23},
year = {2025}
}
信息表格
属性 |
详情 |
库名称 |
transformers |
数据集 |
BAAI/TACO、tasksource/PRM800K |
语言 |
英文 |
基础模型 |
Qwen/Qwen2.5 - 32B - Instruct、NovaSky - AI/Sky - T1 - 32B - Preview |
许可证 |
Apache - 2.0 |