D

Donut Refexp Combined V1

由 ivelin 开发
一个用于视觉问答任务的模型,专注于用户界面引用表达式的理解。
下载量 503
发布时间 : 1/20/2023

模型简介

该模型旨在理解和解析用户界面中的引用表达式,帮助用户通过自然语言指令定位和操作UI组件。

模型特点

UI组件定位
能够根据自然语言描述准确定位用户界面中的特定组件。
多模态理解
结合视觉和文本信息,理解用户界面与自然语言指令的关系。
相对位置描述
支持基于相对位置(如'旁边的文本框')的UI组件引用。
属性识别
能够识别UI组件的颜色、文本标签等属性进行引用。

模型能力

理解用户界面引用表达式
视觉问答
UI组件定位
多模态信息处理

使用案例

用户界面辅助
UI组件定位
帮助用户通过自然语言指令找到特定UI组件。
提高用户操作效率,减少摸索时间。
无障碍辅助
为视障用户提供基于语音的UI导航支持。
增强应用的可访问性。
自动化测试
测试脚本生成
根据自然语言描述自动生成UI测试脚本。
简化测试流程,提高测试覆盖率。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase