🚀 YiXin-Distill-Qwen-72B
YiXin-Distill-Qwen-72Bは、数学的推論と一般的な推論に特化した高性能蒸留モデルです。Qwen2.5-72Bをベースに強化学習を用いて開発され、数学的推論や一般知識のタスクに最適化されています。高度な蒸留技術を活用し、計算効率を維持しながら推論能力を向上させています。
プロパティ |
詳細 |
モデルタイプ |
text-generation |
ベースモデル |
Qwen/Qwen2.5-72B |
評価指標 |
accuracy |
ライセンス |
apache-2.0 |
YiXin-Distill-Qwen-72B
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
✨ 主な機能
YiXin-Distill-Qwen-72B: 数学的および一般的推論のための高性能蒸留モデルは、Qwen2.5-72Bをベースに強化学習を用いて開発されました。数学的推論と一般知識のタスクに特化して最適化されており、高度な蒸留技術を活用して推論能力を向上させながら、計算効率も維持しています。Qwenモデルの強固な基盤の上に構築され、様々なベンチマーク評価で最先端の性能を達成することを目指しています。ベンチマーク評価の結果、YiXin-Distill-Qwen-72Bは強力な性能を発揮し、主要な数学的および一般的推論タスクで、比較対象の蒸留モデルに比べて平均5~11パーセントポイントの改善が見られました。
📚 ドキュメント
学習の詳細
データ収集と処理
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識の理解を向上させるために精心に選りすぐられた高品質のデータセットで学習されています。データパイプラインは、ノイズを最小限に抑えながらモデルの最適な性能を確保するために、構造化された多段階アプローチに従っています。
1. データセットの集約
- 現在利用可能な高品質のオープンソースデータセットを基に構築されています。
- 数学と一般知識を含む複数のドメインをカバーしています。
2. データフィルタリングと品質評価
DeepSeek-R1をLLMジャッジとして利用した包括的な品質管理フレームワークを実装し、データ品質を評価しました。評価基準は以下の通りです。
- 難易度レベル:データサンプルを簡単、中程度、難しいの3つのレベルに分類し、複雑度レベル全体でバランスの取れた表現を確保しました。
- 正解検証:データセット内の回答の正しさを保証するために、厳格な検証プロセスを採用しました。
- 品質スコアリング:各プロンプト-レスポンスペアを、複雑度、指示の明瞭さ、および推論能力を向上させる可能性に基づいて評価しました。
- レスポンス長分析:最小長要件を満たさないレスポンスは、十分な情報を提供できないため、トレーニング信号として意味がないと判断して除外しました。
3. 検証と改良
主観的な回答については、LLMベースのジャッジを使用してレスポンスの品質と関連性を検証しました。数学的な内容については、追加の検証手順を実施しました。
- 数学的な回答とそれに対応する解決策を体系的に検証しました。
- 批評モデルを使用して、各解決プロセスの論理的な一貫性と数学的推論の正しさを評価しました。
- 論理的なギャップや誤った推論パターンがある解決策は、修正またはトレーニングセットから削除しました。
蒸留プロセス
YiXin-Distill-Qwen-72Bは、段階的な2段階蒸留アプローチを採用しており、インテリジェントなデータ選択と最適化を通じてモデルの性能を反復的に改善しています。トレーニングフレームワークは、モデルが既に得意な高信頼度のサンプルを継続的に特定して削除し、過学習を軽減する一方で、低信頼度のサンプルを反復的に改良して弱い推論パターンを強化します。複数の微調整サイクルと品質評価を活用することで、数学的および一般的推論のベンチマーク全体で、効率と精度のバランスの取れた向上を達成しています。
評価結果
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクにおいて、QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1などの複数のモデルとベンチマーク評価されました。

指標 |
QwQ-32B |
DeepSeek-R1-Distill-Qwen-32B |
DeepSeek-R1-Distill-Llama-70B |
DeepSeek-R1 |
YiXin-Distill-Qwen-72B |
MATH-500 |
96.2 |
91.2 |
94.0 |
94.4 |
97.0 |
GPQA-Diamond |
62.6 |
62.1 |
62.6 |
74.8 |
69.2 |
AIME-24 |
73.3 |
66.7 |
70.0 |
80.0 |
76.7 |
AIME-25 |
63.3 |
60.0 |
46.7 |
63.3 |
73.3 |
MMLU-Pro |
86.2 |
78.3 |
80.3 |
92.4 |
92.6 |
平均 |
76.3 |
71.7 |
70.7 |
81.0 |
81.8 |
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクで大幅な改善を示しています。
🔧 技術詳細
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクにおいて高性能を発揮するために、以下のような技術的な工夫が施されています。
- 蒸留技術:高度な蒸留技術を用いて、モデルの推論能力を向上させながら、計算効率も維持しています。
- 強化学習:Qwen2.5-72Bをベースに強化学習を行うことで、モデルの性能をさらに向上させています。
- データ品質管理:データ収集と処理の過程で、多段階の品質管理を行い、モデルの性能を最適化しています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
🔖 引用
もしあなたが研究でYiXin-Distill-Qwen-72Bを使用する場合は、以下のように適切に引用してください。
@misc{yixindistillqwen-72b,
title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
author={YiXin-AILab},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
🙏 謝辞
QwenやDeepSeekモデルを開発・維持しているオープンソースコミュニティと研究者の皆様に感謝申し上げます。皆様の貢献により、大規模言語モデルの蒸留と推論能力の分野が大きく進歩しました。
⚠️ 重要提示
YiXin-Distill-Qwen-72Bにはいくつかの制限があります。敵対的攻撃、プロンプトインジェクション、データ漏洩の影響を受ける可能性があります。機密データを扱う場合は、適切なセキュリティ対策を講じることをお勧めします。また、学習データに含まれないドメインでは、性能が低下する可能性があります。
💡 使用建议
モデルを使用する際には、学習データのドメインを考慮し、適切なプロンプトを与えることで、より良い結果を得ることができます。また、定期的にモデルを更新することで、最新の知識を反映させることができます。