🚀 WebDreamer:面向網頁智能體的基於模型的規劃框架
WebDreamer是一個規劃框架,能夠為現實世界中的網頁智能體任務實現高效且有效的規劃。更多詳細信息請查閱我們的論文。
本研究由 OSUNLP 和 Orby AI 合作完成。

- 代碼倉庫:https://github.com/OSU-NLP-Group/WebDreamer
- 論文鏈接:https://arxiv.org/abs/2411.06559
- 聯繫人:Kai Zhang
✨ 主要特性
WebDreamer作為一個規劃框架,能夠為現實世界的網頁智能體任務實現高效且有效的規劃。
📦 安裝指南
暫未提供安裝指南相關內容。
💻 使用示例
基礎用法
vLLM服務器
vllm serve osunlp/Dreamer-7B --api-key token-abc123 --dtype float16
或者
python -m vllm.entrypoints.openai.api_server --served-model-name osunlp/Dreamer-7B --model osunlp/Dreamer-7B --dtype float16
你可以在 Qwen2-VL的官方倉庫 中找到更多關於訓練和推理的說明。
高級用法
提示模板
實際上,我們的模型對文本提示具有很強的魯棒性,所以可以放心嘗試各種我們未深入探索的提示。
def format_openai_template(description: str, base64_image):
return [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},
},
{
"type": "text",
"text": f"""
Below is current screenshot. Please describe what you would see after a {action_description}"""
},
],
},
]
messages = format_openai_template(description, base64_image)
completion = await client.chat.completions.create(
model=args.model_path,
messages=messages,
temperature=1.0
)
📚 詳細文檔
模型
數據
Dreamer訓練數據
root
|-- prompt: string
|-- image: binary
|-- response: string
|-- action: string
實驗結果
在VisualWebArena和Mind2Web-live上表現出色
基準測試 |
方法 |
成功率 |
VisualWebArena |
GPT - 4o + 反應式 |
17.6% |
|
GPT - 4o + 樹搜索 |
26.2% |
|
GPT - 4o + WebDreamer |
23.6% (↑34.1%) |
Online - Mind2Web |
GPT - 4o + 反應式 |
26.0% |
|
GPT - 4o + WebDreamer |
37.0% (↑42.3%) |
Mind2Web - live |
GPT - 4o + 反應式 |
20.2% |
|
GPT - 4o + WebDreamer |
25.0% (↑23.8%) |
與反應式基線相比,WebDreamer在VisualWebArena、Online - Mind2Web和Mind2Web - live上的性能分別顯著提高了34.1%、42.3%和23.8%。
比基於真實交互的樹搜索更高效
WebDreamer通過模擬有效探索搜索空間,在保持強大性能的同時,大大減少了對現實世界交互的依賴。
🔧 技術細節
暫未提供技術細節相關內容。
📄 許可證
本項目採用Apache 2.0許可證。
📚 引用信息
如果您覺得這項工作有用,請考慮引用我們的論文:
@article{Gu2024WebDreamer,
author = {Yu Gu and Kai Zhang and Yuting Ning and Boyuan Zheng and Boyu Gou and Tianci Xue and Cheng Chang and Sanjari Srivastava and Yanan Xie and Peng Qi and Huan Sun and Yu Su},
title = {Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents},
journal = {CoRR},
volume = {abs/2411.06559},
year = {2024},
url = {https://arxiv.org/abs/2411.06559},
eprinttype= {arXiv},
eprint = {2411.06559},
}