OmniParser-v2.0開源屏幕解析工具 - 免費將UI截圖轉為結構化格式

首頁

Omniparser V2.0

由microsoft開發

OmniParser是一款通用屏幕解析工具，能夠將UI截圖解釋/轉換為結構化格式，以提升基於LLM的UI代理性能。

圖像生成文本

Transformers

開源協議:MIT #UI元素解析 #低延遲處理 #多模態代理

下載量 6,729

發布時間 : 2/12/2025

模型概述

OmniParser設計用於將非結構化截圖圖像轉換為結構化元素列表，包括可交互區域位置及圖標潛在功能描述。適用於各類截圖（含PC和手機）及多種應用程序場景。

模型特點

高效解析

相比V1延遲降低60%，A100上0.6秒/幀，單卡4090上0.8秒。

大規模數據集

訓練數據集包括可交互圖標檢測數據集和圖標描述數據集，規模更大且更乾淨。

強勁性能

在ScreenSpot Pro上達到39.6的平均準確率。

多模型支持

開箱即支持OpenAI、DeepSeek、Qwen或Anthropic Computer Use等多種大語言模型。

模型能力

UI截圖解析

可交互區域檢測

圖標功能描述

結構化數據轉換

使用案例

UI代理開發

基於LLM的GUI代理

通過OmniParser+自選視覺模型控制Windows 11虛擬機。

提升代理對UI的理解和操作能力

自動化測試

UI元素檢測

自動檢測和描述應用程序中的可交互元素。

提高測試覆蓋率和效率

🚀 OmniParser - 通用屏幕解析工具

OmniParser 是一款通用的屏幕解析工具，它能夠將 UI 截圖解釋並轉換為結構化格式，從而提升現有的基於大語言模型（LLM）的 UI 代理的性能。

📢 [GitHub 倉庫] [OmniParser V2 博客文章] Huggingface 演示

🚀 快速開始

OmniParser 旨在將非結構化的截圖圖像轉換為結構化的元素列表，其中包括可交互區域的位置以及圖標潛在功能的描述。

✨ 主要特性

模型概述

OmniParser 是一個通用的屏幕解析工具，可將 UI 截圖解釋/轉換為結構化格式，以改進現有的基於大語言模型的 UI 代理。訓練數據集包括：

一個可交互圖標檢測數據集，該數據集從流行的網頁中精心挑選，並進行了自動標註，以突出可點擊和可操作的區域。
一個圖標描述數據集，旨在將每個 UI 元素與其相應的功能關聯起來。

此模型中心分別包含在上述數據集上微調後的 YOLOv8 版本和 Florence - 2 基礎模型。有關所使用的模型和微調的更多詳細信息，請參考論文。

V2 版本新特性

更大更乾淨的圖標字幕 + 定位數據集：提供了更豐富和準確的數據支持。
延遲顯著降低：與 V1 相比，延遲改善了 60%。在 A100 上平均延遲為 0.6 秒/幀，在單張 4090 上為 0.8 秒。
強大的性能表現：在 ScreenSpot Pro 上的平均準確率達到 39.6。
單一工具控制：你的代理只需要一個工具：OmniTool。使用 OmniParser + 你選擇的視覺模型來控制 Windows 11 虛擬機。OmniTool 支持以下開箱即用的大語言模型 - OpenAI (4o/o1/o3 - mini)、DeepSeek (R1)、Qwen (2.5VL) 或 Anthropic Computer Use。詳情請查看我們的 GitHub 倉庫。

📚 詳細文檔

負責任的人工智能考量

預期用途

OmniParser 旨在將非結構化的截圖圖像轉換為結構化的元素列表，包括可交互區域的位置和圖標潛在功能的描述。
OmniParser 適用於用戶已經接受過負責任的分析方法培訓並需要進行批判性推理的場景。OmniParser 能夠從截圖中提取信息，但需要人工對其輸出進行判斷。
OmniParser 可用於各種截圖，包括 PC 和手機的截圖，以及各種應用程序的截圖。

侷限性

OmniParser 旨在忠實地將截圖圖像轉換為可交互區域和屏幕語義的結構化元素，但其不會檢測輸入中的有害內容（就像用戶可以自由決定任何大語言模型的輸入一樣），因此用戶應提供無害的輸入。
雖然 OmniParser 僅將截圖圖像轉換為文本，但它可用於構建基於大語言模型的可操作 GUI 代理。在使用 OmniParser 開發和操作代理時，開發人員需要承擔責任並遵循常見的安全標準。