P

Paligemma 3b Ft Widgetcap Waveui 448

Developed by agentsea
基于PaliGemma 3B 448分辨率权重,在WaveUI数据集上针对目标检测任务微调的视觉语言模型
Downloads 344
Release Time : 7/8/2024

Model Overview

专注于UI元素检测的视觉语言模型,作为AgentSea开源智能体构建工具包的重要组成部分

Model Features

高精度UI元素检测
在WaveUI数据集上微调,专门优化UI元素检测性能
基于PaliGemma架构
基于谷歌PaliGemma 3B模型构建,具备强大的多模态理解能力
开源智能体支持
作为AgentSea开源智能体构建工具包的核心组件

Model Capabilities

UI元素检测
多模态理解
目标定位

Use Cases

UI自动化
界面元素识别
自动识别应用界面中的按钮、输入框等元素
在测试集上达到0.40 IoU
智能体开发
自动化测试
用于构建能够理解UI的测试智能体
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase