🚀 🍓 Marco-o1:邁向開放式解決方案的開放推理模型
Marco-o1 不僅專注於像數學、物理和編碼這類有標準答案、適合強化學習(RL)的學科,更著重於 開放式解決方案。我們旨在解決這個問題:“o1 模型能否有效泛化到缺乏明確標準且難以量化獎勵的更廣泛領域?”目前,Marco-o1 大語言模型(LLM)由 思維鏈(CoT)微調、蒙特卡羅樹搜索(MCTS)、反思機制 和 創新推理策略 驅動,針對複雜的現實世界問題解決任務進行了優化。
🚀 快速開始
加載 Marco-o1-CoT 模型
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")
推理
執行推理腳本(你可以在其中輸入任何自定義內容):
./src/talk_with_model.py
./src/talk_with_model_vllm.py
✨ 主要特性
目前,我們的工作具有以下顯著特點:
- 🍀 使用 CoT 數據進行微調:我們通過使用開源的 CoT 數據集結合自主研發的合成數據對基礎模型進行全參數微調,開發了 Marco-o1-CoT。
- 🍀 通過 MCTS 擴展解決方案空間:我們將大語言模型與 MCTS(Marco-o1-MCTS)集成,利用模型輸出的置信度來指導搜索並擴展解決方案空間。
- 🍀 推理行動策略:我們實施了新穎的推理行動策略和反思機制(Marco-o1-MCTS Mini-Step),包括在 MCTS 框架內探索不同的行動粒度並促使模型進行自我反思,從而顯著增強了模型解決複雜問題的能力。
- 🍀 在翻譯任務中的應用:我們首次將大型推理模型(LRM)應用於機器翻譯任務,探索了多語言和翻譯領域的推理時間縮放規律。
OpenAI 最近推出了具有開創性的 o1 模型,以其卓越的推理能力而聞名。該模型在 AIME、CodeForces 等平臺上表現出色,超越了其他領先模型。受此成功啟發,我們旨在進一步突破大語言模型的界限,增強其推理能力以應對複雜的現實世界挑戰。
Marco-o1 利用 CoT 微調、MCTS 和推理行動策略等先進技術來增強其推理能力。如圖 2 所示,通過結合過濾後的 Open-O1 CoT 數據集、Marco-o1 CoT 數據集和 Marco-o1 指令數據集對 Qwen2 - 7B - Instruct 進行微調,Marco-o1 提高了對複雜任務的處理能力。MCTS 允許使用從 top - k 替代令牌的 softmax 應用對數概率得出的置信度分數來探索多條推理路徑,引導模型找到最優解決方案。此外,我們的推理行動策略涉及在步驟和小步驟內改變行動粒度,以優化搜索效率和準確性。

如圖 3 所示,Marco-o1 在 MGSM(英語)數據集上的準確率提高了 6.17%,在 MGSM(中文)數據集上提高了 5.60%,展示了其增強的推理能力。

此外,在翻譯任務中,Marco-o1 能夠出色地翻譯俚語表達,例如將“這個鞋擁有踩屎感”(字面翻譯:“This shoe offers a stepping - on - poop sensation.”)翻譯為“This shoe has a comfortable sole”,展示了其對口語細微差別的出色把握。

如需更多信息,請訪問我們的 Github。
👨🏻💻 致謝
主要貢獻者
來自阿里巴巴國際數字商業 AI 業務的 MarcoPolo 團隊:
引用
如果您發現 Marco-o1 對您的研究和應用有用,請引用:
@misc{zhao2024marcoo1openreasoningmodels,
title={Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions},
author={Yu Zhao and Huifeng Yin and Bo Zeng and Hao Wang and Tianqi Shi and Chenyang Lyu and Longyue Wang and Weihua Luo and Kaifu Zhang},
year={2024},
eprint={2411.14405},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2411.14405},
}
📄 許可證
本項目遵循 Apache License Version 2(SPDX - License - identifier: Apache - 2.0)許可。
免責聲明
我們在訓練過程中使用了合規性檢查算法,以盡最大努力確保訓練的模型和數據集的合規性。由於數據複雜且語言模型使用場景多樣,我們不能保證模型完全沒有版權問題或不當內容。如果您認為有任何內容侵犯了您的權利或產生了不當內容,請聯繫我們,我們將及時處理。
⚠️ 重要提示
我們想強調的是,這項研究工作受到了 OpenAI 的 o1 的啟發(名稱也由此而來)。這項工作旨在探索潛在方法,為目前尚不明確的大型推理模型技術路線提供思路。此外,我們專注於開放式問題,並在多語言應用中觀察到了有趣的現象。然而,我們必須承認,當前模型主要表現出類似 o1 的推理特徵,其性能仍未達到一個完全成熟的“o1”模型。這不是一次性的努力,我們將繼續致力於持續優化和改進。