🚀 32B推理模型
本項目是一個基於特定優化的32B推理模型,在保持準確性的同時顯著減少生成長度,為數學和編碼等領域的推理任務提供高效解決方案。
🚀 快速開始
您可以參考我們的 博客文章 以獲取更多關於該模型的詳細信息。
✨ 主要特性
這是一個在 Sky-T1-32B-Preview 基礎上進行偏好優化的32B推理模型,能夠在保持準確性的同時顯著減少生成長度。在數學和編碼方面,其性能與 o1-preview 模型相當,相對於 Sky-T1-32B-Preview,生成長度最多可減少57%。
📦 安裝指南
文檔未提及安裝步驟,暫無法提供。
📚 詳細文檔
模型詳情
模型描述
這是一個在 Sky-T1-32B-Preview 基礎上進行偏好優化的32B推理模型,旨在顯著減少生成長度,同時保持準確性。在數學和編碼方面,其性能與 o1-preview 模型相當,相對於 Sky-T1-32B-Preview,生成長度最多可減少57%。
- 開發者:來自加州大學伯克利分校天空計算實驗室的 NovaSky 團隊。
訓練詳情
訓練數據
在數學和編碼領域有10K個偏好對,由 Sky-T1-32B-Preview 生成。
訓練過程
我們使用簡單策略優化(SimPO)進行訓練,批量大小為96,學習率為5e - 7,gamma 為0.3,beta 為2.0。
訓練速度
我們使用 Llama - Factory 進行訓練。在8xH100上,使用 DeepSpeed Zero - 3 Offload 進行 SimPO 訓練大約需要2.5小時。
評估
評估指標 |
子指標 |
Sky-T1-32B-Preview |
Sky-T1-32B-Flash |
Qwen2.5-32B-Instruct |
QwQ-32B- Base |
DeepSeek-R1-Distill-Qwen-32B |
Math500 |
Acc |
88.6 |
88.6 |
76.2 |
89.2 |
90.8 |
|
Avg Len |
2124 |
1417 (-33%) |
522 |
2089 |
2010 |
AIME24 |
Acc |
43.3 |
43.3 |
16.7 |
50 |
66.7 |
|
Avg Len |
6881 |
4365 (-37%) |
970 |
7379 |
9173 |
LCB Easy |
Acc |
87.4 |
89 |
84.6 |
90.7 |
91.2 |
|
Avg Len |
3415 |
2265 (-34%) |
414 |
3255 |
2775 |
LCB Medium |
Acc |
56.8 |
56.3 |
40.8 |
56.3 |
76.7 |
|
Avg Len |
8263 |
4389 (-47%) |
535 |
6742 |
6324 |
LCB Hard |
Acc |
17.9 |
17.9 |
9.8 |
17.1 |
38.2 |
|
Avg Len |
14564 |
6199 (-57%) |
618 |
10450 |
10448 |
MMLU |
Acc |
82.4 |
81.7 |
80.1 |
85.2 |
82.1 |
|
Avg Len |
1087 |
799 (-17%) |
312 |
1041 |
774 |
GPQA Diamond |
Acc |
56.8 |
56.6 |
45.5 |
52.5 |
62.6 |
|
Avg Len |
3503 |
2148 (-39%) |
600 |
3302 |
5108 |
致謝
我們感謝 Lambda Lab 和 AnyScale 提供的計算資源。
許可證
本項目採用 Apache - 2.0 許可證。
引用
如果您認為我們的博客文章對您的研究有幫助,請考慮引用。謝謝!
@misc{reduce_overthinking_2025,
author = {NovaSky Team},
title = {Think Less, Achieve More: Cut Reasoning Costs by 50% Without Sacrificing Accuracy},
howpublished = {https://novasky-ai.github.io/posts/reduce-overthinking},
note = {Accessed: 2025-01-23},
year = {2025}
}
信息表格
屬性 |
詳情 |
庫名稱 |
transformers |
數據集 |
BAAI/TACO、tasksource/PRM800K |
語言 |
英文 |
基礎模型 |
Qwen/Qwen2.5 - 32B - Instruct、NovaSky - AI/Sky - T1 - 32B - Preview |
許可證 |
Apache - 2.0 |