🚀 YiXin-Distill-Qwen-72B
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクに特化した高性能蒸留モデルです。Qwen2.5-72Bをベースに強化学習を用いて開発され、計算効率を維持しながら推論能力を向上させています。
🚀 クイックスタート
Hugging Face's Transformers
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "YiXin-AILab/YiXin-Distill-Qwen-72B"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "8+8=?"
messages = [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
vLLM or SGLang
例えば、vLLM を使って簡単にサービスを起動できます。
vllm serve YiXin-AILab/YiXin-Distill-Qwen-72B --tensor-parallel-size 4 --max-model-len 32768 --enforce-eager
また、SGLang を使っても簡単にサービスを起動できます。
python3 -m sglang.launch_server --model YiXin-AILab/YiXin-Distill-Qwen-72B --trust-remote-code --tp 4 --port 8000
その後、以下のコマンドでChat APIにアクセスできます。
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "YiXin-AILab/YiXin-Distill-Qwen-72B",
"messages": [
{"role": "system", "content": "You are a helpful and harmless assistant. You are Qwen developed by Alibaba. You should think step-by-step."},
{"role": "user", "content": "8+8=?"}
]
}'
✨ 主な機能
YiXin-Distill-Qwen-72Bは、Qwen2.5-72Bをベースに強化学習を用いて開発された高性能蒸留モデルです。数学的推論と一般知識のタスクに特化しており、高度な蒸留技術を活用することで、計算効率を維持しながら推論能力を向上させています。ベンチマーク評価では、数学的推論と一般知識のタスクにおいて、他の蒸留モデルに比べて平均5~11パーセンテージポイントの改善が見られます。
📦 インストール
ローカルで実行するには、上記の「クイックスタート」セクションに記載されているコードを使用してください。
📚 ドキュメント
モデル概要
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクに特化した高性能蒸留モデルです。Qwen2.5-72Bをベースに強化学習を用いて開発され、計算効率を維持しながら推論能力を向上させています。
学習詳細
データ収集と処理
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識の理解を向上させるために精心に選りすぐられた高品質のデータセットで学習されています。データパイプラインは、ノイズを最小限に抑えながら最適なモデル性能を確保するために、構造化された多段階アプローチに従っています。
1. データセットの集約
- 現在利用可能な高品質のオープンソースデータセットをベースに構築されています。
- 数学と一般知識を含む複数のドメインをカバーしています。
2. データフィルタリングと品質評価
DeepSeek-R1をLLMジャッジとして利用した包括的な品質管理フレームワークを実装し、データ品質を評価しました。評価基準は以下の通りです。
- 難易度レベル:データサンプルを簡単、中程度、難しいの3つのレベルに分類し、複雑度レベル全体でバランスの取れた表現を確保しました。
- 正解検証:データセット内の回答の正しさを保証するために、厳格な検証プロセスを採用しました。
- 品質スコアリング:各プロンプト-レスポンスペアを、その複雑度、指示の明瞭さ、および推論能力を向上させる可能性に基づいて評価しました。
- レスポンス長分析:最小長要件を満たさないレスポンスは除外されました。これらのレスポンスは通常、有意義な学習信号を提供するのに十分な情報を欠いているためです。
3. 検証と改良
主観的な回答については、LLMベースのジャッジを使用してレスポンスの品質と関連性を検証しました。数学的な内容については、追加の検証手順を実施しました。
- 数学的な回答とそれに対応する解決策を体系的に検証しました。
- 批評モデルが各解決プロセスを評価し、数学的推論の論理的一貫性と正しさを確保しました。
- 論理的なギャップまたは誤った推論パターンを持つ解決策は、修正または学習セットから削除されました。
蒸留プロセス
YiXin-Distill-Qwen-72Bは、段階的な2段階蒸留アプローチを採用しており、インテリジェントなデータ選択と最適化を通じてモデル性能を反復的に改善しています。学習フレームワークは、モデルがすでに得意な高信頼度のサンプルを継続的に特定して削除し、過学習を軽減する一方で、低信頼度のサンプルを反復的に改良して弱い推論パターンを強化します。複数の微調整サイクルと品質評価を活用することで、モデルは数学的推論と一般知識のベンチマーク全体で効率と精度のバランスの取れた向上を達成しています。
評価結果
YiXin-Distill-Qwen-72Bは、QwQ-32B、DeepSeek-R1-Distill-Qwen-32B、DeepSeek-R1-Distill-Llama-70B、DeepSeek-R1を含む複数のモデルと、数学的推論と一般知識のタスクでベンチマークされました。

指標 |
QwQ-32B |
DeepSeek-R1-Distill-Qwen-32B |
DeepSeek-R1-Distill-Llama-70B |
DeepSeek-R1 |
YiXin-Distill-Qwen-72B |
MATH-500 |
96.2 |
91.2 |
94.0 |
94.4 |
97.0 |
GPQA-Diamond |
62.6 |
62.1 |
62.6 |
74.8 |
69.2 |
AIME-24 |
73.3 |
66.7 |
70.0 |
80.0 |
76.7 |
AIME-25 |
63.3 |
60.0 |
46.7 |
63.3 |
73.3 |
MMLU-Pro |
86.2 |
78.3 |
80.3 |
92.4 |
92.6 |
平均 |
76.3 |
71.7 |
70.7 |
81.0 |
81.8 |
YiXin-Distill-Qwen-72Bは、数学的推論と一般知識のタスクにおいて大幅な改善を示しています。
制限事項
強力な性能を持つものの、YiXin-Distill-Qwen-72Bにはいくつかの制限があります。
- 潜在的なセキュリティ懸念:YiXin-Distill-Qwen-72Bは、敵対的攻撃、プロンプトインジェクション、およびデータ漏洩の影響を受ける可能性があります。機密性の高いデプロイメントでは、適切なセキュリティ対策を推奨します。
- ドメイン固有のバイアス:性能は異なるドメインで異なる場合があり、特に学習データで十分に表現されていないドメインではそうです。
- 蒸留における潜在的な損失:教師モデルのいくつかの微妙な推論能力は、蒸留プロセス中に低下する可能性があります。
引用
もしあなたが研究でYiXin-Distill-Qwen-72Bを使用する場合は、この成果を適切に引用してください。
@misc{yixindistillqwen-72b,
title={YiXin-Distill-Qwen-72B: A High-Performance Distilled Model for Mathematical and General Reasoning},
author={YiXin-AILab},
year={2025},
url={https://huggingface.co/YiXin-AILab/YiXin-Distill-Qwen-72B}
}
謝辞
QwenとDeepSeekモデルを開発および維持しているオープンソースコミュニティと研究者の皆さんの貢献に感謝申し上げます。彼らの業績は、大規模言語モデルの蒸留と推論能力の分野を大きく前進させています。
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下でライセンスされています。