Donut Refexp Combined V1
一个用于视觉问答任务的模型,专注于用户界面引用表达式的理解。
下载量 503
发布时间 : 1/20/2023
模型简介
该模型旨在理解和解析用户界面中的引用表达式,帮助用户通过自然语言指令定位和操作UI组件。
模型特点
UI组件定位
能够根据自然语言描述准确定位用户界面中的特定组件。
多模态理解
结合视觉和文本信息,理解用户界面与自然语言指令的关系。
相对位置描述
支持基于相对位置(如'旁边的文本框')的UI组件引用。
属性识别
能够识别UI组件的颜色、文本标签等属性进行引用。
模型能力
理解用户界面引用表达式
视觉问答
UI组件定位
多模态信息处理
使用案例
用户界面辅助
UI组件定位
帮助用户通过自然语言指令找到特定UI组件。
提高用户操作效率,减少摸索时间。
无障碍辅助
为视障用户提供基于语音的UI导航支持。
增强应用的可访问性。
自动化测试
测试脚本生成
根据自然语言描述自动生成UI测试脚本。
简化测试流程,提高测试覆盖率。
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98