A

Agentcpm GUI

openbmbによって開発
AgentCPM-GUIはRFT強化推論能力を備えたデバイスサイドのグラフィカルインターフェースエージェントで、中国語と英語のアプリを操作可能、80億パラメータのMiniCPM-Vを基に構築されています。
ダウンロード数 541
リリース時間 : 5/8/2025

モデル概要

清華大学自然言語処理研究所、中国人民大学、ModelBestが共同開発したオープンソースのデバイスサイド大規模言語エージェントモデルで、スマートフォンのスクリーンショットを入力として、ユーザー指定のタスクを自律的に実行します。

モデル特徴

高品質GUI位置特定
大規模なバイリンガルAndroidデータセットによる事前学習で、一般的なGUIコンポーネントの位置特定と理解能力を大幅に向上させました。
中国語アプリ操作
中国語アプリ向けに精密調整された初のオープンソースGUIエージェントで、30以上の人気中国語アプリをカバーしています。
強化された計画推論
強化微調整技術(RFT)により、モデルはアクションを出力する前に思考を行い、複雑なタスクの成功率を大幅に向上させます。
コンパクトなアクション空間設計
最適化されたアクション空間と簡潔なJSONフォーマットにより、平均アクション長を9.7トークンに削減し、デバイスサイド推論効率を向上させました。

モデル能力

グラフィカルインターフェース理解
画面要素位置特定
マルチモーダルインタラクション
タスク計画
自動化操作

使用事例

モバイルアプリ自動化
中国語アプリナビゲーション
高徳地図、大衆点評などの中国語アプリでナビゲーションや検索などのタスクを実行
位置特定ベンチマークで71.3の平均スコアを達成
クロスランゲージインターフェース操作
中国語と英語が混在するインターフェースで正確にターゲット要素を識別し操作
テキストから座標へのタスクで76.5点を達成
アクセシビリティ支援
視覚支援操作
視覚障害ユーザーが音声コマンドでモバイルデバイスインターフェースを操作するのを支援
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase