🚀 Tiny-R1-32B-Preview
Tiny-R1-32B-Previewは、第1世代の推論モデルで、数学、コーディング、科学の3つの分野で強力な性能を発揮します。このモデルは、特定分野のモデルを統合して構築され、全体的な性能が高いです。
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "qihoo360/TinyR1-32B-Preview"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "Please reason step by step, and put your final answer within \\boxed{}. Solve the integral: \[I = \int \frac{x^2}{(x+1)^3} \,dx\]"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=4000
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
✨ 主な機能
- 特定分野のモデル統合:数学、コーディング、科学の3つの分野の特定モデルを統合し、Tiny-R1-32B-Previewを作成しました。
- 強力な全体性能:評価結果から、Tiny-R1-32B-Previewは全体的に高い性能を示しています。
📚 ドキュメント
更新情報
2025年4月16日
トレーニングデータセットとトレーニングおよび評価パイプラインを正式にオープンソース化しました。
2025年3月7日
技術レポートをアップロードしました。
モデルの紹介
Tiny-R1-32B-Previewは、第1世代の推論モデルです。このモデルは、Deepseek-R1-Distill-Qwen-32Bをベースに、360-LLaMA-Factoryトレーニングフレームワークを使用して、数学、コーディング、科学の3つのターゲットドメインで教師あり微調整(SFT)を行いました。その後、ArceeチームのMergekitツールを使用して複数のモデルを統合し、Tiny-R1-32B-Previewを作成しました。
注記:2025年3月3日20:50(北京時間、UTC+8)以前に存在していた新しいトークナイザー設定のバグを修正しました。詳細はホットフィックスを参照してください。
評価結果
モデル |
数学 (AIME 2024) |
コーディング (LiveCodeBench) |
科学 (GPQA-Diamond) |
Deepseek-R1-Distill-Qwen-32B |
72.6 |
57.2 |
62.1 |
Deepseek-R1-Distill-Llama-70B |
70.0 |
57.5 |
65.2 |
Deepseek-R1 |
79.8 |
65.9 |
71.5 |
Tiny-R1-32B-Preview (当社のモデル) |
78.1 |
61.6 |
65.0 |
すべてのスコアはpass@1で報告されています。AIME 2024では16の応答をサンプリングし、GPQA-Diamondでは4の応答をサンプリングし、どちらも平均全体精度を使用して安定した評価を行っています。
3つの方向で個別にトレーニングされたモデルを1つのモデルに統合しました。以下は比較結果です。
モデル |
数学 (AIME 2024) |
コーディング (LiveCodeBench) |
科学 (GPQA-Diamond) |
数学モデル |
73.1 |
- |
- |
コーディングモデル |
- |
63.4 |
- |
科学モデル |
- |
- |
64.5 |
統合モデル (Tiny-R1-32B-Preview) |
78.1 |
61.6 |
65.0 |
データ
1. 数学
open-r1/OpenR1-Math-220kの58.3kのCoT軌跡(デフォルトサブセット)
2. コーディング
open-thoughts/OpenThoughts-114kの19kのCoT軌跡(コーディングサブセット)
3. 科学
8.6kのCoT軌跡:
オープンソース計画
できるだけ早く技術レポートを公開し、トレーニングと評価のコード、選択されたトレーニングデータ、および評価ログをオープンソース化する予定です。オープンソースコミュニティから多大な恩恵を受けているため、できる限り貢献していきます。
注意事項
TinyR1-32B-Previewは、AIの推論能力を向上させるために設計された実験的な研究モデルです。プレビューリリースとして、一部のベンチマークで高い評価スコアを示していますが、一般ユーザー向けのアプリケーションには適していません。主な制限事項は以下の通りです。
- パラメータ設定が誤っていると、R1と同様に出力が繰り返されるループが発生する可能性があります。R1の設定に合わせて、温度を0.6、top-pを0.95に設定することをお勧めします。
- 現在のモデルでは、推論の開始を示す
<think>
トークンが省略されており、思考プロセスの終了を示す</think>
トークンのみが出力されます。この問題は次のバージョンですぐに解決されます。
- モデルは、単純なクエリに対して過度に長い推論チェーンを生成することがあります。改善に取り組んでいます。
- ベンチマークのカバレッジが限られています。ユーザーには、追加のベンチマークでモデルを評価することをお勧めし、ベンチマーク結果を拡充していきます。
- モデルには、信頼性と安全性を確保するための強化された安全対策が必要です。
ホットフィックス (2025年3月3日)
2025年3月3日20:50(北京時間、UTC+8)に、トークナイザーを更新しました。この更新より前にモデルをダウンロードしたユーザーは、トークナイザー関連の設定ファイル(tokenizer.json、tokenizer_config.json、config.json、およびspecial_tokens_map.json)を再ダウンロードすることをお勧めします。
内部テストでは、この更新によりユーザーから報告された以下の問題が解決されることが確認されています。
- 出力の繰り返し。
- ベンチマーク性能の低下。
- 語彙範囲を超えるトークンIDの生成。
フィードバックをいただき、ありがとうございます。さらなる問題があれば、報告していただけると助かります。また、技術レポートの作成と関連コードおよびデータの整理に積極的に取り組んでいます。
貢献者
360チーム
Lin Sun、Guangxiang Zhao、Xiaoqi Jian、Weihong Lin、Yongfu Zhu、Change Jia、Linglin Zhang、Jinzhu Wu、Sai-er Hu、Xiangzheng Zhang
PKUチーム
Yuhan Wu、Zihan Jiang、Wenrui Liu、Junting Zhou、Bin Cui、Tong Yang
引用
@misc{tinyr1proj,
title={SuperDistillation Achieves Near-R1 Performance with Just 5% of Parameters.},
author={TinyR1 Team},
year={2025},
eprint={},
archivePrefix={},
primaryClass={},
url={https://huggingface.co/qihoo360/TinyR1-32B-Preview},
}
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。