U

Uground V1 2B

由 osunlp 开发
UGround是一个强大的GUI视觉定位模型,采用简单的方法进行训练,由OSUNLP和Orby AI合作完成。
下载量 975
发布时间 : 1/3/2025

模型简介

UGround是一个专注于GUI视觉定位的模型,能够精确定位屏幕上的特定元素或对象,适用于各种GUI交互场景。

模型特点

强大的GUI视觉定位能力
能够精确定位屏幕上的特定元素或对象,准确识别GUI中的各种组件。
简单的训练方法
采用简洁有效的训练策略,实现了高性能的视觉定位能力。
多尺寸图像处理
支持处理各种分辨率和比例的图像,适应不同的GUI界面。
多语言支持
除了英语和中文,还支持理解图像中多种语言的文本内容。

模型能力

GUI元素定位
视觉问答
多模态理解
跨语言文本识别
复杂推理和决策

使用案例

自动化测试
GUI元素自动识别
自动识别和定位应用程序界面中的按钮、文本框等元素
提高自动化测试的准确性和效率
辅助技术
视觉辅助工具
帮助视障用户理解和操作GUI界面
提升无障碍访问体验
机器人控制
基于视觉的机器人操作
通过GUI界面控制机器人执行任务
实现更自然的机器人交互方式
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase