Sky-T1-32B-Flashオープンソース推論モデル - 最適化版で生成長さを大幅に短縮し、精度を維持

ホーム

Sky T1 32B Flash

NovaSky-AIによって開発

Sky-T1-32B-Previewを基に最適化された32B推論モデルの好みバージョンで、正確性を維持しながら生成長を大幅に短縮できます。

大規模言語モデル

Transformers

英語オープンソースライセンス:Apache-2.0 #数学推論の最適化 #プログラミングタスクの効率化 #生成長の圧縮

ダウンロード数 557

リリース時間 : 1/23/2025

モデル概要

このモデルは数学とプログラミングタスクにおいてo1-previewモデルと同等の性能を発揮し、Sky-T1-32B-Previewと比較して最大57%の生成長削減を実現しています。

モデル特徴

効率的な推論

Sky-T1-32B-Previewと比較して最大57%の生成長削減を実現し、推論コストを大幅に削減します。

正確性の維持

数学とプログラミングタスクにおいてo1-previewモデルと同等の性能を維持し、正確性に影響を与えません。

最適化トレーニング

シンプル戦略最適化(SimPO)手法を用いてトレーニングを行い、モデルの効率を向上させます。

モデル能力

数学推論

プログラミングタスク推論

テキスト生成

使用事例

数学

数学問題の解答

AIME24競技問題などの複雑な数学問題を解答します。

正確率43.3%、平均長37%削減。

プログラミング

プログラミング問題の解答

プログラミング競技の簡単、中級、難問を解答します。

簡単問題正確率89%、中級問題56.3%、難問17.9%、平均長34%-57%削減。

知識質問応答

MMLU知識質問応答

多分野の知識問題に回答します。

正確率81.7%、平均長17%削減。

🚀 Sky-T1-32B-Flash

Sky-T1-32B-Previewをベースに最適化された32B推論モデルで、精度を維持しながら生成長を大幅に短縮します。

🚀 クイックスタート

このドキュメントでは、Sky-T1-32B-Flashモデルの詳細、学習情報、評価結果などについて説明します。

✨ 主な機能

Sky-T1-32B-Previewをベースに最適化され、精度を維持しながら生成長を最大57%短縮。
数学とコーディングの両方でo1-previewモデルと同等の性能を発揮。

📚 ドキュメント

🔍 モデル詳細

モデル説明

これは、Sky-T1-32B-Previewをベースに最適化された32B推論モデルで、精度を維持しながら生成長を大幅に短縮します。数学とコーディングの両方でo1-previewモデルと同等の性能を発揮し、Sky-T1-32B-Previewに比べて生成長を最大57%短縮します。詳細については、ブログ記事を参照してください。

開発者: カリフォルニア大学バークレー校のSky Computing LabのNovaSkyチーム

🔧 学習詳細

学習データ

Sky-T1-32B-Previewによって生成された、数学とコーディング領域の10Kの嗜好ペア。

学習手順

バッチサイズ96、学習率5e-7、ガンマ0.3、ベータ2.0でSimple Policy Optimization (SimPO)を実行します。

速度

学習にはLlama-Factoryを使用します。8xH100で、DeepSpeed Zero-3 Offloadを使用したSimPO学習には約2.5時間かかります。

📊 評価

		Sky-T1-32B-Preview	Sky-T1-32B-Flash	Qwen2.5-32B-Instruct	QwQ-32B- Base	DeepSeek-R1-Distill-Qwen-32B
Math500	Acc	88.6	88.6	76.2	89.2	90.8
	Avg Len	2124	1417 (-33%)	522	2089	2010
AIME24	Acc	43.3	43.3	16.7	50	66.7
	Avg Len	6881	4365 (-37%)	970	7379	9173
LCB Easy	Acc	87.4	89	84.6	90.7	91.2
	Avg Len	3415	2265 (-34%)	414	3255	2775
LCB Medium	Acc	56.8	56.3	40.8	56.3	76.7
	Avg Len	8263	4389 (-47%)	535	6742	6324
LCB Hard	Acc	17.9	17.9	9.8	17.1	38.2
	Avg Len	14564	6199 (-57%)	618	10450	10448
MMLU	Acc	82.4	81.7	80.1	85.2	82.1
	Avg Len	1087	799 (-17%)	312	1041	774
GPQA Diamond	Acc	56.8	56.6	45.5	52.5	62.6
	Avg Len	3503	2148 (-39%)	600	3302	5108

🙏 謝辞

Lambda Lab と AnyScale からの計算リソースに感謝します。

📄 ライセンス

Apache-2.0

📖 引用

このブログ記事があなたの研究に役立った場合は、引用を検討してください。ありがとうございます！

@misc{reduce_overthinking_2025,
  author       = {NovaSky Team},
  title        = {Think Less, Achieve More: Cut Reasoning Costs by 50% Without Sacrificing Accuracy},
  howpublished = {https://novasky-ai.github.io/posts/reduce-overthinking},
  note         = {Accessed: 2025-01-23},
  year         = {2025}
}

📋 その他情報

属性	详情
ライブラリ名	transformers
データセット	BAAI/TACO、tasksource/PRM800K
言語	en
ベースモデル	Qwen/Qwen2.5-32B-Instruct、NovaSky-AI/Sky-T1-32B-Preview
ライセンス	apache-2.0