Marco-o1開源推理模型 - 免費部署助力解決各類複雜問題方案

首頁

Marco O1

由AIDC-AI開發

Marco-o1是一個專注於開放式解決方案的開放推理模型，通過思維鏈微調、蒙特卡洛樹搜索和反思機制增強複雜問題解決能力。

大型語言模型

Transformers

開源協議:Apache-2.0 #開放式推理 #多語言翻譯 #思維鏈增強

下載量 5,007

發布時間 : 11/13/2024

模型概述

Marco-o1大語言模型通過思維鏈微調、蒙特卡洛樹搜索(MCTS)、反思機制和創新推理策略優化，專為複雜現實問題求解任務設計，特別關注缺乏明確標準答案的開放式問題。

模型特點

思維鏈微調

基於開源CoT數據集與自研合成數據全參數微調，構建Marco-o1-CoT模型

MCTS擴展解空間

融合LLM與蒙特卡洛樹搜索(Marco-o1-MCTS)，利用模型置信度指導搜索

推理動作策略

實現推理動作策略與反思機制，包括MCTS框架內多粒度動作探索與模型自反思

多語言應用

首次將大推理模型應用於機器翻譯任務，探索多語言領域的推理縮放規律

模型能力

複雜問題推理

數學解題

編程問題解決

多語言翻譯

開放式問題解答

使用案例

教育

數學問題求解

解決需要多步推理的數學問題

在MGSM數據集上準確率提升6.17%

編程

算法問題解決

解決需要創造性思維的編程挑戰

翻譯

俚語翻譯

精準翻譯口語化表達

如將'踩屎感'譯為'comfortable sole'

🚀 🍓 Marco-o1：邁向開放式解決方案的開放推理模型

Marco-o1 不僅專注於像數學、物理和編碼這類有標準答案、適合強化學習（RL）的學科，更著重於 開放式解決方案。我們旨在解決這個問題：“o1 模型能否有效泛化到缺乏明確標準且難以量化獎勵的更廣泛領域？”目前，Marco-o1 大語言模型（LLM）由 思維鏈（CoT）微調、蒙特卡羅樹搜索（MCTS）、反思機制 和 創新推理策略 驅動，針對複雜的現實世界問題解決任務進行了優化。

🚀 快速開始

加載 Marco-o1-CoT 模型

# 直接加載模型
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("AIDC-AI/Marco-o1")
model = AutoModelForCausalLM.from_pretrained("AIDC-AI/Marco-o1")

推理

執行推理腳本（你可以在其中輸入任何自定義內容）：

./src/talk_with_model.py

# 使用 vLLM
./src/talk_with_model_vllm.py

✨ 主要特性

目前，我們的工作具有以下顯著特點：

🍀 使用 CoT 數據進行微調：我們通過使用開源的 CoT 數據集結合自主研發的合成數據對基礎模型進行全參數微調，開發了 Marco-o1-CoT。
🍀 通過 MCTS 擴展解決方案空間：我們將大語言模型與 MCTS（Marco-o1-MCTS）集成，利用模型輸出的置信度來指導搜索並擴展解決方案空間。
🍀 推理行動策略：我們實施了新穎的推理行動策略和反思機制（Marco-o1-MCTS Mini-Step），包括在 MCTS 框架內探索不同的行動粒度並促使模型進行自我反思，從而顯著增強了模型解決複雜問題的能力。
🍀 在翻譯任務中的應用：我們首次將大型推理模型（LRM）應用於機器翻譯任務，探索了多語言和翻譯領域的推理時間縮放規律。

OpenAI 最近推出了具有開創性的 o1 模型，以其卓越的推理能力而聞名。該模型在 AIME、CodeForces 等平臺上表現出色，超越了其他領先模型。受此成功啟發，我們旨在進一步突破大語言模型的界限，增強其推理能力以應對複雜的現實世界挑戰。

Marco-o1 利用 CoT 微調、MCTS 和推理行動策略等先進技術來增強其推理能力。如圖 2 所示，通過結合過濾後的 Open-O1 CoT 數據集、Marco-o1 CoT 數據集和 Marco-o1 指令數據集對 Qwen2 - 7B - Instruct 進行微調，Marco-o1 提高了對複雜任務的處理能力。MCTS 允許使用從 top - k 替代令牌的 softmax 應用對數概率得出的置信度分數來探索多條推理路徑，引導模型找到最優解決方案。此外，我們的推理行動策略涉及在步驟和小步驟內改變行動粒度，以優化搜索效率和準確性。

如圖 3 所示，Marco-o1 在 MGSM（英語）數據集上的準確率提高了 6.17%，在 MGSM（中文）數據集上提高了 5.60%，展示了其增強的推理能力。

此外，在翻譯任務中，Marco-o1 能夠出色地翻譯俚語表達，例如將“這個鞋擁有踩屎感”（字面翻譯：“This shoe offers a stepping - on - poop sensation.”）翻譯為“This shoe has a comfortable sole”，展示了其對口語細微差別的出色把握。

如需更多信息，請訪問我們的 Github。

👨🏻‍💻 致謝

主要貢獻者

來自阿里巴巴國際數字商業 AI 業務的 MarcoPolo 團隊：

趙宇
尹會峰
王浩
王龍躍

引用

如果您發現 Marco-o1 對您的研究和應用有用，請引用：

@misc{zhao2024marcoo1openreasoningmodels,
      title={Marco-o1: Towards Open Reasoning Models for Open-Ended Solutions}, 
      author={Yu Zhao and Huifeng Yin and Bo Zeng and Hao Wang and Tianqi Shi and Chenyang Lyu and Longyue Wang and Weihua Luo and Kaifu Zhang},
      year={2024},
      eprint={2411.14405},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2411.14405}, 
}

📄 許可證

本項目遵循 Apache License Version 2（SPDX - License - identifier: Apache - 2.0）許可。

免責聲明

我們在訓練過程中使用了合規性檢查算法，以盡最大努力確保訓練的模型和數據集的合規性。由於數據複雜且語言模型使用場景多樣，我們不能保證模型完全沒有版權問題或不當內容。如果您認為有任何內容侵犯了您的權利或產生了不當內容，請聯繫我們，我們將及時處理。

⚠️ 重要提示

我們想強調的是，這項研究工作受到了 OpenAI 的 o1 的啟發（名稱也由此而來）。這項工作旨在探索潛在方法，為目前尚不明確的大型推理模型技術路線提供思路。此外，我們專注於開放式問題，並在多語言應用中觀察到了有趣的現象。然而，我們必須承認，當前模型主要表現出類似 o1 的推理特徵，其性能仍未達到一個完全成熟的“o1”模型。這不是一次性的努力，我們將繼續致力於持續優化和改進。