OmniParser開源屏幕解析工具 - 免費將UI截圖轉換為結構化格式

首頁

Omniparser

由microsoft開發

OmniParser是一款通用屏幕解析工具，能夠將用戶界面截圖解釋/轉換為結構化格式，以改進現有基於大語言模型（LLM）的UI代理。

圖像生成文本

Transformers

開源協議:MIT #屏幕解析 #UI元素檢測 #圖標功能描述

下載量 847

發布時間 : 10/7/2024

模型概述

OmniParser旨在將非結構化的截圖圖像轉換為結構化元素列表，包括可交互區域位置和圖標潛在功能的描述。適用於PC和手機界面，以及不同應用程序的截圖解析。

模型特點

通用屏幕解析

能夠解析各種截圖，包括PC和手機界面，以及不同應用程序的截圖。

結構化輸出

將非結構化的截圖圖像轉換為結構化元素列表，包括可交互區域位置和圖標潛在功能的描述。

多模型組合

包含微調的YOLOv8版本用於可交互圖標檢測，以及BLIP-2模型用於圖標描述。

模型能力

用戶界面截圖解析

可交互區域檢測

圖標功能描述

結構化數據轉換

使用案例

UI代理增強

基於LLM的GUI代理

改進現有基於大語言模型的UI代理，通過解析截圖提供更準確的界面信息。

提高代理對用戶界面的理解和操作準確性。

無障礙技術

屏幕閱讀器增強

為視障用戶提供更詳細的界面元素描述。

改善視障用戶的數字可訪問性體驗。

🚀 轉換器（transformers）

OmniParser 是一款通用屏幕解析工具，可將 UI 截圖轉換為結構化格式，助力提升基於大語言模型（LLM）的 UI 智能體性能。它能處理多種類型的截圖，廣泛適用於不同應用場景。

🚀 快速開始

📢 [項目頁面] [博客文章] [演示]

✨ 主要特性

通用屏幕解析：能夠將 UI 截圖解釋/轉換為結構化格式，為現有的基於大語言模型（LLM）的 UI 智能體提供支持。
多數據集訓練：訓練數據集包括從流行網頁整理並自動標註的可交互圖標檢測數據集，以及將每個 UI 元素與其對應功能關聯的圖標描述數據集。
模型微調：模型中心分別包含在上述數據集上微調的 YOLOv8 和 BLIP - 2 模型。

📚 詳細文檔

模型概述

OmniParser 是一個通用的屏幕解析工具，它可以將 UI 截圖轉換為結構化格式，以改進現有的基於大語言模型（LLM）的 UI 智能體。訓練數據集包括：1）一個可交互圖標檢測數據集，該數據集從流行網頁中整理而來，並自動標註以突出可點擊和可操作區域；2）一個圖標描述數據集，旨在將每個 UI 元素與其相應功能關聯起來。

這個模型中心分別包含在上述數據集上微調的 YOLOv8 和 BLIP - 2 模型。有關所使用模型和微調的更多詳細信息，請參考論文。

負責任的人工智能考量

預期用途

結構化轉換：OmniParser 旨在能夠將非結構化的截圖圖像轉換為結構化的元素列表，包括可交互區域的位置和圖標潛在功能的說明。
專業使用場景：OmniParser 旨在用於用戶已經接受過負責任分析方法培訓並需要批判性推理的環境中。OmniParser 能夠從截圖中提取信息，但需要人工對其輸出進行判斷。
多平臺適用性：OmniParser 旨在用於各種截圖，包括 PC 和手機截圖，以及各種應用程序的截圖。

侷限性

有害內容檢測缺失：OmniParser 旨在忠實地將截圖圖像轉換為可交互區域的結構化元素和屏幕語義，它不會檢測輸入中的有害內容（就像用戶可以自由決定任何大語言模型的輸入一樣），因此用戶需要提供無害的輸入。
安全責任：雖然 OmniParser 只是將截圖圖像轉換為文本，但它可用於構建基於大語言模型的可操作 GUI 智能體。在使用 OmniParser 開發和操作智能體時，開發人員需要承擔責任並遵循常見的安全標準。
敏感屬性推斷問題：對於 OmniPaser - BLIP2，它可能會錯誤地推斷圖標圖像中個人的性別或其他敏感屬性（如種族、宗教等）。敏感屬性的推斷可能依賴於刻板印象和概括，而不是關於特定個人的信息，並且對於邊緣化人群更有可能出現錯誤。錯誤的推斷可能會導致重大的身體或心理傷害，或者限制、侵犯或損害個人實現其人權的能力。因此，不建議在任何類似工作場所的使用場景中使用 OmniParser。