🚀 AM‑Thinking‑v1: 32B規模で推論の限界を拡張する
AM‑Thinking‑v1は、推論能力の向上に特化した32Bの密な言語モデルです。このモデルは、Qwen 2.5‑32B‑Baseをベースに構築されており、推論ベンチマークで強力な性能を発揮し、DeepSeek‑R1、Qwen3‑235B‑A22B、Seed1.5-Thinkingなどの大規模MoEモデルや、Nemotron-Ultra-253B-v1などの大規模な密モデルに匹敵する性能を示します。
🤗 Hugging Face   |    📑 論文    |    📑 ブログ   
🚀 クイックスタート
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "a-m-team/AM-Thinking-v1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
prompt = "How can I find inner peace?"
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=49152
)
output_ids = generated_ids[0][len(model_inputs.input_ids[0]):].tolist()
response = tokenizer.decode(output_ids, skip_special_tokens=True)
think_content = response.split("<think>")[1].split("</think>")[0]
answer_content = response.split("<answer>")[1].split("</answer>")[0]
print (f"user prompt: {prompt}")
print (f"model thinking: {think_content}")
print (f"model answer: {answer_content}")
⚠️ 重要提示
トークナイザの設定にはシステムプロンプトが含まれており、SFTとRLの両段階で使用されています。出力品質を一定に保つために、実際の使用時にも同じシステムプロンプトを含めることをお勧めします。そうしないと、モデルの応答が大きく影響を受ける可能性があります。
コンパクトデバイス用の量子化バージョン
AM-Thinking-v1モデルの一連の量子化バージョンが利用可能です。llama.cppとOllamaで使用するには、AM-Thinking-v1-ggufを参照してください。
✨ 主な機能
なぜ別の32B推論モデルが重要なのか?
DeepSeek‑R1やQwen3‑235B‑A22Bなどの大規模Mixture‑of‑Experts (MoE) モデルはリーダーボードを支配していますが、高エンドGPUのクラスターを必要とします。多くのチームは、単一のカードに収まる最高の密モデル を必要としています。AM‑Thinking‑v1は、このギャップを埋めるとともに、完全にオープンソースのコンポーネントに基づいています。
- AIME’24/’25とLiveCodeBenchでDeepSeek‑R1を上回り、パラメータ数が1/7であるにもかかわらずQwen3‑235B‑A22Bに近づきます。
- 公開されているQwen 2.5‑32B‑BaseとRLトレーニングクエリをベースに構築されています。
- 適切に設計された事後トレーニングパイプライン (SFT + 2段階RL) を使用することで、32Bの密モデルからフラグシップレベルの推論能力を引き出すことができることを示しています。
- 決定的なレイテンシで1台のA100‑80GBにデプロイできます。MoEルーティングのオーバーヘッドはありません。
AM-Thinking-v1は、大幅に少ないパラメータで強力な推論性能を達成します。
📚 ドキュメント
ユースケース
コード生成
PROMPT :
write a python script for a bouncing red ball within a triangle, make sure to handle collision detection properly. make the triangle slowly rotate. implement it in python. make sure ball stays within the triangle
論理
文章作成
🔧 技術詳細
事後トレーニングパイプライン
強力な推論能力を実現するために、AM‑Thinking‑v1は慎重に設計された事後トレーニングパイプラインを経ています。以下に、ベースモデルを高性能な推論モデルに変えるための主要なステップを説明します。
ステップ1 – コールドスタートSFT
オープンソースのQwen 2.5‑32B‑Baseから始め、数学、コード、オープンドメインチャットの混合トレーニングデータセットを使用して広範な教師あり微調整を行います。これにより、モデルに「考えてから答える」行動パターンが与えられ、初期の推論能力が備わります。
ステップ2 – 合格率を考慮したデータ選別
RLの前に、SFTモデルをすべての数学とコード指向のトレーニングクエリで評価します。各項目について合格率を記録し、0 < 合格率 < 1 のもののみを残します。実質的に、モデルがすでに習得している問題と完全に失敗する問題を破棄し、学習を本当に有益なケースに集中させます。
ステップ3 – 強化学習
2段階GRPO方式を採用しています。段階1では、数学とコードのクエリのみを対象にトレーニングします。収束したら、段階2では段階1で100%正しく答えたすべてのクエリを削除し、最大生成長や学習率などの重要なハイパーパラメータを調整してから開始します。
⚠️ 制限事項
AM‑Thinking‑v1は純粋な言語推論とオープンドメインチャットで優れた性能を発揮しますが、構造化された関数呼び出しやツール使用ワークフローのためにトレーニングされていないため、外部システムに作用する必要があるエージェントスタイルのアプリケーションでの有用性が制限されています。また、複雑な指示に従うモデルの能力を向上させることも、将来の重要な方向性です。さらに、セキュリティアライメントはまだ初期段階であるため、潜在的な危害を減らすためにより厳格なレッドチーミングが必要です。
📄 ライセンス
このプロジェクトはApache-2.0ライセンスの下で公開されています。
📚 引用
a-m-teamは、Beike (Ke.com) の内部チームで、AGI技術の探索に専念しています。もし私たちの研究が役に立った場合は、ぜひ引用してください。
@misc{ji2025amthinkingv1advancingfrontierreasoning,
title={AM-Thinking-v1: Advancing the Frontier of Reasoning at 32B Scale},
author={Yunjie Ji and Xiaoyu Tian and Sitong Zhao and Haotian Wang and Shuaiting Chen and Yiping Peng and Han Zhao and Xiangang Li},
year={2025},
eprint={2505.08311},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.08311},
}