🚀 Mistral-Small-Reasoning
このモデルは、mistralai/Mistral-Small-24B-Instruct-2501 をファインチューニングしたもので、数学的な推論タスクに特化して最適化されています。OpenR1-Math-220k や s1K-1.1 などのデータセットでファインチューニングされ、推論能力が向上しています。
🚀 クイックスタート
デモは twllm.com で利用できます。また、vLLM または sglang を使用して推論を実行することができます。
✨ 主な機能
- 数学的な推論タスクに特化した最適化
- 複数のデータセットでのファインチューニングによる推論能力の向上
📚 ドキュメント
モデルの詳細
学習の詳細
このモデルは、Ubitus が提供する 4×8 H100 GPU を使用して学習されました。

学習設定を表示
axolotl バージョン: a98526ef7843a3e8aa006f260e6b4fb8912b5f1a
base_model: mistralai/Mistral-Small-24B-Instruct-2501
plugins:
- axolotl.integrations.liger.LigerPlugin
liger_rope: true
liger_rms_norm: true
liger_swiglu: true
liger_fused_linear_cross_entropy: true
datasets:
- path: yentinglin/s1K-1.1-trl-format
type: chat_template
chat_template: tokenizer_default
field_messages: messages
message_field_role: role
message_field_content: content
- path: open-r1/OpenR1-Math-220k
type: chat_template
chat_template: tokenizer_default
field_messages: messages
message_field_role: from
message_field_content: value
dataset_prepared_path:
val_set_size: 0.0
output_dir: ./placeholder/
sequence_len: 32768
sample_packing: true
eval_sample_packing: False
pad_to_sequence_len: true
wandb_project: Reasoning
wandb_entity:
wandb_watch:
wandb_name: Mistral-24B-SFT-220k
wandb_log_model:
gradient_accumulation_steps: 4
micro_batch_size: 1
num_epochs: 5
optimizer: adamw_torch_fused
lr_scheduler: cosine
learning_rate: 2e-5
train_on_inputs: false
group_by_length: false
bf16: auto
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
logging_steps: 1
flash_attention: true
warmup_ratio: 0.1
saves_per_epoch: 2
weight_decay: 0.0
deepspeed: deepspeed_configs/zero3_bf16.json
special_tokens:
pad_token: "<pad>"
評価
評価コードは Hugging Face Open-R1 で入手できます。なお、AIME 25 データセットを完全版に更新しており、AIME 2025 で入手できます。
以下の結果は複数回の実行結果の平均です。詳細な評価内容は こちら を参照してください。
Pass@1 |
# パラメータ |
MATH-500 |
AIME 2025 |
AIME 2024 |
GPQA Diamond |
Mistral-24B-Reasoning (Ours) |
24B |
95.0 |
53.33 |
66.67 |
62.02 |
Mistral-24B-Instruct |
24B |
70.6 |
- |
- |
45.3 |
s1.1-32B |
32B |
93.2 |
40.0 |
56.7 |
61.62 |
LIMO |
32B |
94.8 |
36.67 |
57.1 |
59.09 |
DeepSeek-R1-Distill-Llama-70B |
70B |
94.5 |
46.67 |
70.0 |
65.2 |
DeepSeek-R1-Distill-Qwen-32B |
32B |
94.3 |
60.0 |
72.6 |
62.1 |
DeepSeek-R1 |
671B |
97.3 |
70.0 |
72.6 |
71.5 |
o1 |
- |
96.4 |
79.0 |
- |
75.7 |
o3-mini (high) |
- |
97.9 |
86.5 |
- |
77.2 |
o3-mini (medium) |
- |
97.3 |
76.5 |
- |
74.9 |
引用
このモデルを使用する場合は、以下のように引用してください。
@article{yentinglin2025_mistral_reasoning,
author = {Yenting Lin},
title = {Mistral-Small-24B-Instruct-2501-reasoning},
journal = {Hugging Face},
year = {2025},
url = {https://huggingface.co/yentinglin/Mistral-Small-24B-Instruct-2501-reasoning}
}
📄 ライセンス
このモデルは Apache 2.0 ライセンスの下で提供されています。
⚠️ 免責事項
このモデルは「現状のまま」提供され、いかなる保証も伴いません。ユーザーは出力の正確性と適切性を独自に評価する責任があります。開発者は、このモデルの使用に起因する直接的または間接的な損害について一切の責任を負いません。
このモデルは、医療診断、法律相談、金融投資などの高リスクなアプリケーションには厳禁です。このようなユースケースについては、資格のある専門家に相談してください。
本モデル「如是」(as‑is)提供され、利用者は結果の正確性と適用性を独自に評価する責任があります。開発者は、本モデルの使用によって生じる直接的または間接的な損失について一切の責任を負いません。
医療診断、法律諮問、金融投資等高リスクシーンでの使用は厳禁です。関連するニーズがある場合は、専門家の支援を求めてください。