Omniparser
模型概述
OmniParser旨在將非結構化的截圖圖像轉換為結構化元素列表,包括可交互區域位置和圖標潛在功能的描述。適用於PC和手機界面,以及不同應用程序的截圖解析。
模型特點
通用屏幕解析
能夠解析各種截圖,包括PC和手機界面,以及不同應用程序的截圖。
結構化輸出
將非結構化的截圖圖像轉換為結構化元素列表,包括可交互區域位置和圖標潛在功能的描述。
多模型組合
包含微調的YOLOv8版本用於可交互圖標檢測,以及BLIP-2模型用於圖標描述。
模型能力
用戶界面截圖解析
可交互區域檢測
圖標功能描述
結構化數據轉換
使用案例
UI代理增強
基於LLM的GUI代理
改進現有基於大語言模型的UI代理,通過解析截圖提供更準確的界面信息。
提高代理對用戶界面的理解和操作準確性。
無障礙技術
屏幕閱讀器增強
為視障用戶提供更詳細的界面元素描述。
改善視障用戶的數字可訪問性體驗。
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98