🚀 WebDreamer:面向网页智能体的基于模型的规划框架
WebDreamer是一个规划框架,能够为现实世界中的网页智能体任务实现高效且有效的规划。更多详细信息请查阅我们的论文。
本研究由 OSUNLP 和 Orby AI 合作完成。

- 代码仓库:https://github.com/OSU-NLP-Group/WebDreamer
- 论文链接:https://arxiv.org/abs/2411.06559
- 联系人:Kai Zhang
✨ 主要特性
WebDreamer作为一个规划框架,能够为现实世界的网页智能体任务实现高效且有效的规划。
📦 安装指南
暂未提供安装指南相关内容。
💻 使用示例
基础用法
vLLM服务器
vllm serve osunlp/Dreamer-7B --api-key token-abc123 --dtype float16
或者
python -m vllm.entrypoints.openai.api_server --served-model-name osunlp/Dreamer-7B --model osunlp/Dreamer-7B --dtype float16
你可以在 Qwen2-VL的官方仓库 中找到更多关于训练和推理的说明。
高级用法
提示模板
实际上,我们的模型对文本提示具有很强的鲁棒性,所以可以放心尝试各种我们未深入探索的提示。
def format_openai_template(description: str, base64_image):
return [
{
"role": "user",
"content": [
{
"type": "image_url",
"image_url": {"url": f"data:image/jpeg;base64,{base64_image}"},
},
{
"type": "text",
"text": f"""
Below is current screenshot. Please describe what you would see after a {action_description}"""
},
],
},
]
messages = format_openai_template(description, base64_image)
completion = await client.chat.completions.create(
model=args.model_path,
messages=messages,
temperature=1.0
)
📚 详细文档
模型
数据
Dreamer训练数据
root
|-- prompt: string
|-- image: binary
|-- response: string
|-- action: string
实验结果
在VisualWebArena和Mind2Web-live上表现出色
基准测试 |
方法 |
成功率 |
VisualWebArena |
GPT - 4o + 反应式 |
17.6% |
|
GPT - 4o + 树搜索 |
26.2% |
|
GPT - 4o + WebDreamer |
23.6% (↑34.1%) |
Online - Mind2Web |
GPT - 4o + 反应式 |
26.0% |
|
GPT - 4o + WebDreamer |
37.0% (↑42.3%) |
Mind2Web - live |
GPT - 4o + 反应式 |
20.2% |
|
GPT - 4o + WebDreamer |
25.0% (↑23.8%) |
与反应式基线相比,WebDreamer在VisualWebArena、Online - Mind2Web和Mind2Web - live上的性能分别显著提高了34.1%、42.3%和23.8%。
比基于真实交互的树搜索更高效
WebDreamer通过模拟有效探索搜索空间,在保持强大性能的同时,大大减少了对现实世界交互的依赖。
🔧 技术细节
暂未提供技术细节相关内容。
📄 许可证
本项目采用Apache 2.0许可证。
📚 引用信息
如果您觉得这项工作有用,请考虑引用我们的论文:
@article{Gu2024WebDreamer,
author = {Yu Gu and Kai Zhang and Yuting Ning and Boyuan Zheng and Boyu Gou and Tianci Xue and Cheng Chang and Sanjari Srivastava and Yanan Xie and Peng Qi and Huan Sun and Yu Su},
title = {Is Your LLM Secretly a World Model of the Internet? Model-Based Planning for Web Agents},
journal = {CoRR},
volume = {abs/2411.06559},
year = {2024},
url = {https://arxiv.org/abs/2411.06559},
eprinttype= {arXiv},
eprint = {2411.06559},
}