🚀 WebDreamer: ウェブエージェントのモデルベース計画
WebDreamerは、実世界のウェブエージェントタスクに対して効率的かつ効果的な計画を可能にする計画フレームワークです。詳細については、論文をご確認ください。
この研究は、OSUNLP と Orby AI の共同研究です。

- リポジトリ: https://github.com/OSU-NLP-Group/WebDreamer
- 論文: https://arxiv.org/abs/2411.06559
- 連絡先: Kai Zhang
✨ 主な機能
📦 モデル
📊 データ
Dreamer 学習データ
root
|-- prompt: string
|-- image: binary
|-- response: string
|-- action: string
📈 結果
VisualWebArena と Mind2Web-live での高い性能
ベンチマーク |
手法 |
成功率 |
VisualWebArena |
GPT - 4o + 反応型 |
17.6% |
|
GPT - 4o + ツリーサーチ |
26.2% |
|
GPT - 4o + WebDreamer |
23.6% (↑34.1%) |
Online - Mind2Web |
GPT - 4o + 反応型 |
26.0% |
|
GPT - 4o + WebDreamer |
37.0% (↑42.3%) |
Mind2Web - live |
GPT - 4o + 反応型 |
20.2% |
|
GPT - 4o + WebDreamer |
25.0% (↑23.8%) |
反応型のベースラインと比較して、WebDreamerは、VisualWebArena、Online - Mind2Web、Mind2Web - liveでそれぞれ34.1%、42.3%、23.8%の性能向上を実現しています。
真のインタラクションによるツリーサーチよりも高い効率
WebDreamerは、シミュレーションを通じて検索空間を効果的に探索し、堅牢な性能を維持しながら、実世界のインタラクションへの依存を大幅に削減します。
💻 使用例
推論
vLLMサーバー
vllm serve osunlp/Dreamer-7B --api-key token-abc123 --dtype float16
または
python -m vllm.entrypoints.openai.api_server --served-model-name osunlp/Dreamer-7B --model osunlp/Dreamer-7B --dtype float16
学習と推論に関する詳細な指示は、Qwen2 - VLの公式リポジトリ を参照してください。
プロンプト
実際には、当社のモデルはテキストプロンプトに対して非常に堅牢であるため、私たちが十分に探索していない様々なプロンプトを自由に試してください。
def format_openai_template(description: str, base64_image):
return [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},
},
{
"type": "text",
"text": f"""
Below is current screenshot. Please describe what you would see after a {action_description}"""
},
],
},
]
messages = format_openai_template(description, base64_image)
completion = await client.chat.completions.create(
model=args.model_path,
messages=messages,
temperature=1.0
)
📚 ドキュメント
引用情報
この研究が役に立った場合は、以下の論文を引用していただけると幸いです。
@article{Gu2024WebDreamer,
author = {Yu Gu and Kai Zhang and Yuting Ning and Boyuan Zheng and Boyu Gou and Tianci Xue and Cheng Chang and Sanjari Srivastava and Yanan Xie and Peng Qi and Huan Sun and Yu Su},
title = {Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents},
journal = {CoRR},
volume = {abs/2411.06559},
year = {2024},
url = {https://arxiv.org/abs/2411.06559},
eprinttype= {arXiv},
eprint = {2411.06559},
}
📄 ライセンス
このプロジェクトは、Apache - 2.0ライセンスの下で公開されています。