S

Sciworld MPO

xwmによって開発
Llama-3.1-8B-Instructをファインチューニングした強化学習モデルで、メタ計画最適化技術を用いてエージェントのプランニング能力を向上
ダウンロード数 96
リリース時間 : 2/17/2025

モデル概要

このモデルはメタ計画を通じて高レベルの汎用ガイダンスを提供し、エージェントのタスク実行フィードバックに基づいて継続的に最適化され、ALFWorldとSciWorldのベンチマークテストで優れた性能を発揮

モデル特徴

メタ計画最適化技術
MPO技術を用いて大規模言語モデルエージェントのプランニング能力を向上
高性能ベンチマーク
ALFWorldとSciWorldベンチマークで83.1%の平均精度を達成
フィードバック駆動型最適化
エージェントのタスク実行フィードバックに基づく継続的最適化

モデル能力

エージェントプランニング最適化
メタ計画生成
タスク実行フィードバック分析
強化学習意思決定

使用事例

エージェント開発
仮想アシスタントプランニング最適化
複雑なタスクにおける仮想アシスタントのプランニング能力向上
ALFWorldベンチマークで優れた性能
科学実験プランニング
科学実験ステップのプランニングプロセス最適化
SciWorldベンチマークで高精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase