P

Paligemma 3b Ft Widgetcap Waveui 448

由agentsea開發
基於PaliGemma 3B 448分辨率權重,在WaveUI數據集上針對目標檢測任務微調的視覺語言模型
下載量 344
發布時間 : 7/8/2024

模型概述

專注於UI元素檢測的視覺語言模型,作為AgentSea開源智能體構建工具包的重要組成部分

模型特點

高精度UI元素檢測
在WaveUI數據集上微調,專門優化UI元素檢測性能
基於PaliGemma架構
基於谷歌PaliGemma 3B模型構建,具備強大的多模態理解能力
開源智能體支持
作為AgentSea開源智能體構建工具包的核心組件

模型能力

UI元素檢測
多模態理解
目標定位

使用案例

UI自動化
界面元素識別
自動識別應用界面中的按鈕、輸入框等元素
在測試集上達到0.40 IoU
智能體開發
自動化測試
用於構建能夠理解UI的測試智能體
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase