SciWorld-MPO開源智能模型 - 免費部署提升智能體規劃決策能力

首頁

Sciworld MPO

由xwm開發

基於Llama-3.1-8B-Instruct微調的強化學習模型，採用元計劃優化技術提升智能體規劃能力

大型語言模型

Transformers

英語開源協議:Apache-2.0 #元計劃優化 #智能體規劃 #任務執行反饋

下載量 96

發布時間 : 2/17/2025

模型概述

該模型通過元計劃提供高層次通用指導，並基於智能體任務執行的反饋進行持續優化，在ALFWorld和SciWorld基準測試中表現優異

模型特點

元計劃優化技術

採用MPO技術提升大語言模型智能體的規劃能力

高性能基準測試

在ALFWorld和SciWorld基準測試中達到83.1%的平均準確率

反饋驅動優化

基於智能體任務執行的反饋進行持續優化

模型能力

智能體規劃優化

元計劃生成

任務執行反饋分析

強化學習決策

使用案例

智能體開發

虛擬助手規劃優化

提升虛擬助手在複雜任務中的規劃能力

在ALFWorld基準測試中表現優異

科學實驗規劃

優化科學實驗步驟的規劃流程

在SciWorld基準測試中取得高準確率

🚀 SciWorld-MPO

SciWorld-MPO 是一個基於強化學習的模型，它在 Llama-3.1-8B-Instruct 的基礎上進行微調，通過 Meta Plan Optimization (MPO) 方法提升了大語言模型（LLM）智能體的規劃能力，在 ALFWorld 和 SciWorld 上取得了優異的成績。

🚀 快速開始

此模型是在 sciworld-metaplan-preference-pairs 數據集上對 Llama-3.1-8B-Instruct 進行微調後的版本。它在評估集上取得了以下結果：

損失：1.5017
獎勵/選中：-3.8774
獎勵/拒絕：-5.1594
獎勵/準確率：0.6419
獎勵/差距：1.2820
對數概率/選中：-92.4593
對數概率/拒絕：-109.6343
對數幾率/選中：0.5212
對數幾率/拒絕：0.5151

更多詳細信息請參閱原始論文：MPO: Boosting LLM Agents with Meta Plan Optimization。

代碼地址：https://github.com/WeiminXiong/MPO

✨ 主要特性

該模型運用 Meta Plan Optimization (MPO) 方法來提升大語言模型（LLM）智能體的規劃能力。它通過元計劃利用高級通用指導，並基於智能體任務執行的反饋實現持續優化。該模型在 ALFWorld 和 SciWorld 上達到了最先進的性能，平均準確率為 83.1。

📚 詳細文檔

預期用途與限制

更多信息待補充。

訓練和評估數據

該模型在 sciworld-metaplan-preference-pairs 數據集上進行訓練，該數據集是 Meta_Plan_Optimization 數據集的一部分。

訓練過程

訓練超參數

訓練過程中使用了以下超參數：

學習率：1e-05
訓練批次大小：2
評估批次大小：1
隨機種子：42
分佈式類型：多 GPU
設備數量：4
梯度累積步數：4
總訓練批次大小：32
總評估批次大小：4
優化器：使用 adamw_torch，β=(0.9, 0.999)，ε=1e-08，無額外優化器參數
學習率調度器類型：餘弦
學習率調度器預熱比例：0.03
訓練輪數：3.0

框架版本

Transformers 4.46.1
Pytorch 2.5.1+cu124
Datasets 3.1.0
Tokenizers 0.20.3

📄 許可證

本模型採用 Apache-2.0 許可證。

屬性	詳情
模型類型	基於 Meta Plan Optimization (MPO) 改進的大語言模型智能體
訓練數據	`sciworld-metaplan-preference-pairs` 數據集，屬於 Meta_Plan_Optimization 數據集
基礎模型	meta-llama/Llama-3.1-8B-Instruct
評估指標	準確率
標籤	NLP、智能體