AgentCPM-GUI开源设备端图形界面代理 - 支持中英文应用且有增强推理能力

首页

Agentcpm GUI

由 openbmb 开发

AgentCPM-GUI是一款具备RFT增强推理能力的设备端图形界面代理，可操作中英文应用，基于80亿参数的MiniCPM-V构建。

图像生成文本

Safetensors

支持多种语言开源协议:Apache-2.0 #安卓GUI代理 #多模态交互 #中文应用操作

下载量 541

发布时间 : 5/8/2025

模型简介

由清华自然语言处理实验室、中国人民大学和ModelBest联合开发的开源设备端大语言代理模型，以手机屏幕截图作为输入，自主执行用户指定任务。

模型特点

高质量GUI定位

通过大规模双语安卓数据集预训练，显著提升对常见GUI组件的定位与理解能力。

中文应用操作

首个针对中文应用精细调优的开源GUI代理，覆盖30+热门中文应用。

增强规划推理

强化微调技术(RFT)使模型在输出动作前进行思考，大幅提升复杂任务成功率。

紧凑动作空间设计

优化的动作空间与简洁JSON格式使平均动作长度降至9.7个token，提升设备端推理效率。

模型能力

图形界面理解

屏幕元素定位

多模态交互

任务规划

自动化操作

使用案例

移动应用自动化

中文应用导航

在高德地图、大众点评等中文应用中执行导航、搜索等任务

在定位基准测试中达到71.3的平均分

跨语言界面操作

在中英文混合界面中准确识别并操作目标元素

在文本转坐标任务中达到76.5分

无障碍辅助

视觉辅助操作

帮助视障用户通过语音指令操作移动设备界面

🚀 AgentCPM-GUI

AgentCPM-GUI是一个开源的设备端大语言模型（LLM）代理模型，它能够操作中英文应用程序，并具备强化推理能力。该模型以智能手机截图为输入，可自主执行用户指定的任务。

🚀 快速开始

安装依赖

git clone https://github.com/OpenBMB/AgentCPM-GUI
cd AgentCPM-GUI
conda create -n gui_agent python=3.11
conda activate gui_agent
pip install -r requirements.txt

下载模型

从Hugging Face下载 AgentCPM-GUI 并将其放置在 model/AgentCPM-GUI 目录下。

Huggingface推理

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
from PIL import Image
import json

# 1. 加载模型和分词器
model_path = "model/AgentCPM-GUI"  # 模型路径
tokenizer = AutoTokenizer.from_pretrained(model_path, trust_remote_code=True)
model = AutoModelForCausalLM.from_pretrained(model_path, trust_remote_code=True, torch_dtype=torch.bfloat16)
model = model.to("cuda:0") 

# 2. 构建输入
instruction = "ËØ∑ÁÇπÂáªÂ±èÂπï‰∏äÁöÑ‚Äò‰ºöÂëò‚ÄôÊåâÈíÆ"
image_path = "assets/test.jpeg"
image = Image.open(image_path).convert("RGB")

# 3. 将较长的边调整为1120像素以节省计算和内存
def __resize__(origin_img):
    resolution = origin_img.size
    w,h = resolution
    max_line_res = 1120
    if max_line_res is not None:
        max_line = max_line_res
        if h > max_line:
            w = int(w * max_line / h)
            h = max_line
        if w > max_line:
            h = int(h * max_line / w)
            w = max_line
    img = origin_img.resize((w,h),resample=Image.Resampling.LANCZOS)
    return img
image = __resize__(image)

# 4. 构建消息格式
messages = [{
    "role": "user",
    "content": [
        f"<Question>{instruction}</Question>\nÂΩìÂâçÂ±èÂπïÊà™ÂõæÔºö",
        image
    ]
}]

# 5. 推理
ACTION_SCHEMA = json.load(open('eval/utils/schema/schema.json', encoding="utf-8"))
items = list(ACTION_SCHEMA.items())
insert_index = 3
items.insert(insert_index, ("required", ["thought"])) # 通过设置为 "required"/"optional" 来启用/禁用 thought
ACTION_SCHEMA = dict(items)
SYSTEM_PROMPT = f'''# Role
‰Ω†ÊòØ‰∏ÄÂêçÁÜüÊÇâÂÆâÂçìÁ≥ªÁªüËß¶Â±èGUIÊìç‰ΩúÁöÑÊô∫ËÉΩ‰ΩìÔºåÂ∞ÜÊ†πÊçÆÁî®Êà∑ÁöÑÈóÆÈ¢òÔºåÂàÜÊûêÂΩìÂâçÁïåÈù¢ÁöÑGUIÂÖÉÁ¥†ÂíåÂ∏ÉÂ±ÄÔºåÁîüÊàêÁõ∏Â∫îÁöÑÊìç‰Ωú„ÄÇ

# Task
ÈíàÂØπÁî®Êà∑ÈóÆÈ¢òÔºåÊ†πÊçÆËæìÂÖ•ÁöÑÂΩìÂâçÂ±èÂπïÊà™ÂõæÔºåËæìÂá∫‰∏ã‰∏ÄÊ≠•ÁöÑÊìç‰Ωú„ÄÇ

# Rule
- ‰ª•Á¥ßÂáëJSONÊ†ºÂºèËæìÂá∫
- ËæìÂá∫Êìç‰ΩúÂøÖÈ°ªÈÅµÂæ™SchemaÁ∫¶Êùü

# Schema
{json.dumps(ACTION_SCHEMA, indent=None, ensure_ascii=False, separators=(',', ':'))}'''

outputs = model.chat(
    image=None,
    msgs=messages,
    system_prompt=SYSTEM_PROMPT,
    tokenizer=tokenizer,
    temperature=0.1,
    top_p=0.3,
    n=1,
)

# 6. 输出
print(outputs)

预期输出：

{"thought":"‰ªªÂä°ÁõÆÊ†áÊòØÁÇπÂáªÂ±èÂπï‰∏äÁöÑ‚Äò‰ºöÂëò‚ÄôÊåâÈíÆ„ÄÇÂΩìÂâçÁïåÈù¢ÊòæÁ§∫‰∫ÜÂ∫îÁî®ÁöÑÊé®ËçêÈ°µÈù¢ÔºåÈ°∂ÈÉ®Êúâ‰∏Ä‰∏™ÂØºËà™Ê†è„ÄÇÁÇπÂáª‚Äò‰ºöÂëò‚ÄôÊåâÈíÆÂèØ‰ª•ËÆøÈóÆÂ∫îÁî®ÁöÑ‰ºöÂëòÁõ∏ÂÖ≥ÂÜÖÂÆπ„ÄÇ","POINT":[729,69]}

vLLM推理

# 启动vLLM服务器
vllm serve model/AgentCPM-GUI --served-model-name AgentCPM-GUI --tensor_parallel_size 1 --trust-remote-code

import base64
import io
import json
import requests
from PIL import Image

END_POINT = "http://localhost:8000/v1/chat/completions"  # 替换为实际的端点

# 系统提示
ACTION_SCHEMA = json.load(open('eval/utils/schema/schema.json', encoding="utf-8"))
items = list(ACTION_SCHEMA.items())
insert_index = 3
items.insert(insert_index, ("required", ["thought"])) # 通过设置为 "required"/"optional" 来启用/禁用 thought
ACTION_SCHEMA = dict(items)
SYSTEM_PROMPT = f'''# Role
‰Ω†ÊòØ‰∏ÄÂêçÁÜüÊÇâÂÆâÂçìÁ≥ªÁªüËß¶Â±èGUIÊìç‰ΩúÁöÑÊô∫ËÉΩ‰ΩìÔºåÂ∞ÜÊ†πÊçÆÁî®Êà∑ÁöÑÈóÆÈ¢òÔºåÂàÜÊûêÂΩìÂâçÁïåÈù¢ÁöÑGUIÂÖÉÁ¥†ÂíåÂ∏ÉÂ±ÄÔºåÁîüÊàêÁõ∏Â∫îÁöÑÊìç‰Ωú„ÄÇ

# Task
ÈíàÂØπÁî®Êà∑ÈóÆÈ¢òÔºåÊ†πÊçÆËæìÂÖ•ÁöÑÂΩìÂâçÂ±èÂπïÊà™ÂõæÔºåËæìÂá∫‰∏ã‰∏ÄÊ≠•ÁöÑÊìç‰Ωú„ÄÇ

# Rule
- ‰ª•Á¥ßÂáëJSONÊ†ºÂºèËæìÂá∫
- ËæìÂá∫Êìç‰ΩúÂøÖÈ°ªÈÅµÂæ™SchemaÁ∫¶Êùü

# Schema
{json.dumps(ACTION_SCHEMA, indent=None, ensure_ascii=False, separators=(',', ':'))}'''

def encode_image(image: Image.Image) -> str:
    """将PIL图像转换为Base64编码的字符串。"""
    with io.BytesIO() as in_mem_file:
        image.save(in_mem_file, format="JPEG")
        in_mem_file.seek(0)
        return base64.b64encode(in_mem_file.read()).decode("utf-8")

def __resize__(origin_img):
    resolution = origin_img.size
    w,h = resolution
    max_line_res = 1120
    if max_line_res is not None:
        max_line = max_line_res
        if h > max_line:
            w = int(w * max_line / h)
            h = max_line
        if w > max_line:
            h = int(h * max_line / w)
            w = max_line
    img = origin_img.resize((w,h),resample=Image.Resampling.LANCZOS)
    return img

def predict(text_prompt: str, image: Image.Image):
    messages = [
        {"role": "system", "content": SYSTEM_PROMPT},
        {"role": "user", "content": [
            {"type": "text", "text": f"<Question>{text_prompt}</Question>\nÂΩìÂâçÂ±èÂπïÊà™ÂõæÔºö"},
            {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{encode_image(image)}"}}
        ]}
    ]

    payload = {
        "model": "AgentCPM-GUI",  # 你的模型名称
        "temperature": 0.1,
        "messages": messages,
        "max_tokens": 2048,
    }

    headers = {
        "Content-Type": "application/json",
    }

    response = requests.post(END_POINT, headers=headers, json=payload)
    assistant_msg = response.json()["choices"][0]["message"]["content"]
    return assistant_msg

image = __resize__(Image.open("assets/test.jpeg"))
instruction = "ËØ∑ÁÇπÂáªÂ±èÂπï‰∏äÁöÑ‚Äò‰ºöÂëò‚ÄôÊåâÈíÆ"
response = predict(instruction, image)
print(response)

动作空间

在每一步中，代理输出的是一个单一的JSON对象，其中包含：

一个（且仅一个）原始动作，从以下列表中选择；
可选的修饰符（duration、thought）和/或任务级标志（STATUS）。

请注意，所有关键字都是区分大小写的，并且我们使用紧凑的JSON（即，没有额外的空格），这会影响分词器的行为。

动作	必需字段	可选字段	目的	示例
点击	`POINT:[x,y]`	`duration`,`thought`,`STATUS`	在归一化的屏幕坐标（0 - 1000，原点 = 左上角）处进行单次点击。	`{"POINT":[480,320]}`
长按	`POINT:[x,y]` `duration:1000`	`duration`,`thought`,`STATUS`	在坐标处进行长按（设置较长的持续时间，例如 >200 毫秒）。	`{"POINT":[480,320],"duration":1000}`
滑动	`POINT:[x,y]` `to:"up" \| "down" \| "left" \| "right"` 或 `to:[x,y]`	`duration`,`thought`,`STATUS`	从起点向某个方向或另一个坐标滑动。	`{"POINT":[500,200],"to":"down"}`
按键	`PRESS:"HOME" \| "BACK" \| "ENTER"`	`duration`,`thought`,`STATUS`	触发硬件/导航按钮。	`{"PRESS":"HOME"}`
输入文本	`TYPE:"<text>"`	`duration`,`thought`,`STATUS`	在当前输入焦点处插入给定的文本。	`{"TYPE":"Hello, world!"}`
等待	`duration`	`thought`,`STATUS`	在指定的时间内不执行任何其他操作。	`{"duration":500}`
任务级状态	`STATUS:"start" \| "continue" \| "finish" \| "satisfied" \| "impossible" \| "interrupt" \| "need_feedback"`	`duration`,`thought`	报告任务进度；可以单独出现或与原始动作一起出现。	`{"STATUS":"finish"}`

✨ 主要特性

高质量的GUI基础：在大规模双语Android数据集上进行预训练，显著提升了对常见GUI小部件（按钮、输入框、标签、图标等）的定位和理解能力。
中文应用操作：首个针对中文应用进行微调的开源GUI代理，涵盖了30多个热门应用，如高德地图、大众点评、哔哩哔哩和小红书等。
增强的规划与推理能力：强化微调（RFT）使模型在输出动作之前能够“思考”，大大提高了复杂任务的成功率。
紧凑的动作空间设计：优化的动作空间和简洁的JSON格式将平均动作长度减少到9.7个标记，提高了设备端的推理效率。

演示案例（1倍速）

点击查看

📚 详细文档

微调

SFT和RFT训练的源代码已提供，请参阅 GitHub。

性能评估

基础基准测试

模型	fun2point	text2point	bbox2text	平均值
AgentCPM-GUI-8B	79.1	76.5	58.2	71.3
Qwen2.5-VL-7B	36.8	52.0	44.1	44.3
Intern2.5-VL-8B	17.2	24.2	45.9	29.1
Intern2.5-VL-26B	14.8	16.6	36.3	22.6
OS-Genesis-7B	8.3	5.8	4.0	6.0
UI-TARS-7B	56.8	66.7	1.4	41.6
OS-Altas-7B	53.6	60.7	0.4	38.2
Aguvis-7B	60.8	76.5	0.2	45.8
GPT-4o	22.1	19.9	14.3	18.8
GPT-4o with Grounding	44.3	44.0	14.3	44.2

代理基准测试

数据集	Android Control-Low TM	Android Control-Low EM	Android Control-High TM	Android Control-High EM	GUI-Odyssey TM	GUI-Odyssey EM	AITZ TM	AITZ EM	Chinese APP TM	Chinese APP EM
AgentCPM-GUI-8B	94.39	90.20	77.70	69.17	90.85	74.96	85.71	76.38	96.86	91.28
Qwen2.5-VL-7B	92.11	82.12	69.65	57.36	55.33	40.90	73.16	57.58	68.53	48.80
UI-TARS-7B	93.52	88.89	68.53	60.81	78.79	57.33	71.74	55.31	71.01	53.92
OS-Genesis-7B	90.74	74.22	65.92	44.43	11.67	3.63	19.98	8.45	38.10	14.50
OS-Atlas-7B	73.03	67.25	70.36	56.53	91.83*	76.76*	74.13	58.45	81.53	55.89
Aguvis-7B	93.85	89.40	65.56	54.18	26.71	13.54	35.71	18.99	67.43	38.20
OdysseyAgent-7B	65.10	39.16	58.80	32.74	90.83	73.67	59.17	31.60	67.56	25.44
GPT-4o	-	19.49	-	20.80	-	20.39	70.00	35.30	3.67	3.67
Gemini 2.0	-	28.50	-	60.20	-	3.27	-	-	-	-
Claude	-	19.40	-	12.50	60.90	-	-	-	-	-

*不同的训练/测试分割

TM和EM分别代表类型匹配和精确匹配。所有评估数据和代码均已开源，详情请参阅此处。

评估数据

我们提供了 CAGUI，这是一个用于中文应用的评估基准，涵盖了基础和代理任务。请在 Hugging Face 上查看该数据集。

📄 许可证

本仓库中的代码遵循 Apache-2.0 许可证发布。

🔖 引用

如果 AgentCPM-GUI 对你的研究有帮助，请引用：

@misc{2025,
  author       = {THUNLP},
  title        = {AgentCPM-GUI},
  year         = {2025},
  publisher    = {GitHub},
  journal      = {GitHub repository},
  howpublished = {\url{https://github.com/OpenBMB/AgentCPM-GUI}}
}