O

Omniparser

由microsoft開發
OmniParser是一款通用屏幕解析工具,能夠將用戶界面截圖解釋/轉換為結構化格式,以改進現有基於大語言模型(LLM)的UI代理。
下載量 847
發布時間 : 10/7/2024

模型概述

OmniParser旨在將非結構化的截圖圖像轉換為結構化元素列表,包括可交互區域位置和圖標潛在功能的描述。適用於PC和手機界面,以及不同應用程序的截圖解析。

模型特點

通用屏幕解析
能夠解析各種截圖,包括PC和手機界面,以及不同應用程序的截圖。
結構化輸出
將非結構化的截圖圖像轉換為結構化元素列表,包括可交互區域位置和圖標潛在功能的描述。
多模型組合
包含微調的YOLOv8版本用於可交互圖標檢測,以及BLIP-2模型用於圖標描述。

模型能力

用戶界面截圖解析
可交互區域檢測
圖標功能描述
結構化數據轉換

使用案例

UI代理增強
基於LLM的GUI代理
改進現有基於大語言模型的UI代理,通過解析截圖提供更準確的界面信息。
提高代理對用戶界面的理解和操作準確性。
無障礙技術
屏幕閱讀器增強
為視障用戶提供更詳細的界面元素描述。
改善視障用戶的數字可訪問性體驗。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase