O

Omniparser V2.0

由microsoft開發
OmniParser是一款通用屏幕解析工具,能夠將UI截圖解釋/轉換為結構化格式,以提升基於LLM的UI代理性能。
下載量 6,729
發布時間 : 2/12/2025

模型概述

OmniParser設計用於將非結構化截圖圖像轉換為結構化元素列表,包括可交互區域位置及圖標潛在功能描述。適用於各類截圖(含PC和手機)及多種應用程序場景。

模型特點

高效解析
相比V1延遲降低60%,A100上0.6秒/幀,單卡4090上0.8秒。
大規模數據集
訓練數據集包括可交互圖標檢測數據集和圖標描述數據集,規模更大且更乾淨。
強勁性能
在ScreenSpot Pro上達到39.6的平均準確率。
多模型支持
開箱即支持OpenAI、DeepSeek、Qwen或Anthropic Computer Use等多種大語言模型。

模型能力

UI截圖解析
可交互區域檢測
圖標功能描述
結構化數據轉換

使用案例

UI代理開發
基於LLM的GUI代理
通過OmniParser+自選視覺模型控制Windows 11虛擬機。
提升代理對UI的理解和操作能力
自動化測試
UI元素檢測
自動檢測和描述應用程序中的可交互元素。
提高測試覆蓋率和效率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase