A

Agentcpm GUI

由openbmb開發
AgentCPM-GUI是一款具備RFT增強推理能力的設備端圖形界面代理,可操作中英文應用,基於80億參數的MiniCPM-V構建。
下載量 541
發布時間 : 5/8/2025

模型概述

由清華自然語言處理實驗室、中國人民大學和ModelBest聯合開發的開源設備端大語言代理模型,以手機屏幕截圖作為輸入,自主執行用戶指定任務。

模型特點

高質量GUI定位
通過大規模雙語安卓數據集預訓練,顯著提升對常見GUI組件的定位與理解能力。
中文應用操作
首個針對中文應用精細調優的開源GUI代理,覆蓋30+熱門中文應用。
增強規劃推理
強化微調技術(RFT)使模型在輸出動作前進行思考,大幅提升複雜任務成功率。
緊湊動作空間設計
優化的動作空間與簡潔JSON格式使平均動作長度降至9.7個token,提升設備端推理效率。

模型能力

圖形界面理解
屏幕元素定位
多模態交互
任務規劃
自動化操作

使用案例

移動應用自動化
中文應用導航
在高德地圖、大眾點評等中文應用中執行導航、搜索等任務
在定位基準測試中達到71.3的平均分
跨語言界面操作
在中英文混合界面中準確識別並操作目標元素
在文本轉座標任務中達到76.5分
無障礙輔助
視覺輔助操作
幫助視障用戶通過語音指令操作移動設備界面
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase