🚀 🍓 Marco-o1: オープンエンドな解決策のためのオープン推論モデルへ
🎯 Marco-o1 は、強化学習(RL)に適した数学、物理学、コーディングなどの標準的な解答がある分野に焦点を当てるだけでなく、オープンエンドな解決策にも重点を置いています。私たちは、「o1モデルは、明確な基準がなく報酬の定量化が困難な幅広いドメインに効果的に一般化できるか?」という疑問に取り組もうとしています。
現在、Marco-o1大規模言語モデル(LLM)は、Chain-of-Thought (CoT) 微調整、モンテカルロ木探索 (MCTS)、リフレクションメカニズム、および_革新的な推論戦略_によって強化され、複雑な現実世界の問題解決タスクに最適化されています。
⚠️ 重要提示
この研究はOpenAIのo1に着想を得ています(名前もそこから来ています)。この研究は、大規模推論モデルの不明瞭な技術ロードマップを明らかにするための潜在的なアプローチを探求することを目的としています。また、私たちはオープンエンドな質問に焦点を当てており、多言語アプリケーションで興味深い現象を観察しています。しかし、現在のモデルは主にo1のような推論特性を示しており、完全な「o1」モデルの性能にはまだ及びません。これは一度きりの取り組みではなく、私たちは継続的な最適化と改善に取り組み続けます。

🚀 クイックスタート
モデルの読み込み
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
推論の実行
推論スクリプトを実行します(任意のカスタム入力を与えることができます)。
./src/talk_with_model.py
# vLLMを使用する場合
./src/talk_with_model_vllm.py
✨ 主な機能
現在、私たちの研究には以下の特徴があります。
- 🍀 CoTデータによる微調整: オープンソースのCoTデータセットと独自開発の合成データを組み合わせて、ベースモデルに全パラメータ微調整を行い、Marco-o1-CoTを開発しました。
- 🍀 MCTSによる解空間の拡張: LLMとMCTS(Marco-o1-MCTS)を統合し、モデルの出力信頼度を使って探索をガイドし、解空間を拡張します。
- 🍀 推論アクション戦略: 新しい推論アクション戦略とリフレクションメカニズム(Marco-o1-MCTS Mini-Step)を実装し、MCTSフレームワーク内で異なるアクション粒度を探索し、モデルに自己反省を促すことで、複雑な問題を解決する能力を大幅に向上させました。
- 🍀 翻訳タスクへの応用: 大規模推論モデル(LRM)を機械翻訳タスクに初めて適用し、多言語および翻訳ドメインにおける推論時間のスケーリング則を探索しました。
OpenAIが最近発表した画期的なo1モデルは、卓越した推論能力で知られています。このモデルは、AIMEやCodeForcesなどのプラットフォームで他の主要なモデルを上回る優れた性能を示しています。この成功に触発されて、私たちはLLMの推論能力をさらに向上させ、複雑な現実世界の課題に対処することを目指しました。
🌍 Marco-o1は、CoT微調整、MCTS、および推論アクション戦略などの高度な技術を活用して、推論力を強化しています。下の図2に示すように、フィルタリングされたOpen-O1 CoTデータセット、Marco-o1 CoTデータセット、およびMarco-o1命令データセットを組み合わせてQwen2-7B-Instructを微調整することで、Marco-o1は複雑なタスクの処理能力を向上させました。MCTSは、上位kの代替トークンのソフトマックス適用された対数確率から導出される信頼度スコアを使用して複数の推論パスを探索し、モデルを最適解に導きます。さらに、私たちの推論アクション戦略では、ステップとミニステップ内のアクションの粒度を変えることで、探索の効率と精度を最適化します。
図2: Marco-o1の概要
🌏 下の図3に示すように、Marco-o1はMGSM(英語)データセットで+6.17%、MGSM(中国語)データセットで+5.60%の精度向上を達成し、推論能力の向上を示しています。
図3: Marco-o1の主要な結果
🌎 さらに、翻訳タスクでは、Marco-o1は俗語表現の翻訳に優れています。例えば、「这个鞋拥有踩屎感」(直訳: "This shoe offers a stepping-on-poop sensation.")を "This shoe has a comfortable sole" と翻訳することで、口語的なニュアンスを上手に捉えていることがわかります。
図4: Marco-o1を使用した翻訳タスクのデモンストレーション
詳細については、Github をご覧ください。
👨🏻💻 謝辞
主な貢献者
Alibaba International Digital CommerceのAIビジネス部門のMarcoPoloチームから:
引用
もしあなたがMarco-o1をあなたの研究やアプリケーションに役立てることができた場合、以下のように引用してください。
@misc{zhao2024marcoo1openreasoningmodels,
title={Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions},
author={Yu Zhao and Huifeng Yin and Bo Zeng and Hao Wang and Tianqi Shi and Chenyang Lyu and Longyue Wang and Weihua Luo and Kaifu Zhang},
year={2024},
eprint={2411.14405},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.14405},
}
📄 ライセンス
このプロジェクトは Apache License Version 2(SPDX-License-identifier: Apache-2.0)の下でライセンスされています。
免責事項
トレーニングプロセス中にコンプライアンスチェックアルゴリズムを使用し、トレーニングされたモデルとデータセットができる限りコンプライアンスを守るようにしています。しかし、複雑なデータと言語モデルの使用シナリオの多様性により、モデルが著作権問題や不適切なコンテンツを完全に含まないことを保証することはできません。もし何かがあなたの権利を侵害していると思われる場合や不適切なコンテンツを生成していると思われる場合は、私たちに連絡してください。私たちはすぐに対応します。