donut - refexp - combined - v1開源模型 - 助力視覺問答，精準理解用戶界面引用表達式

首頁

Donut Refexp Combined V1

由ivelin開發

一個用於視覺問答任務的模型，專注於用戶界面引用表達式的理解。

文本生成圖像

Transformers

英語#UI組件定位 #視覺引用解析 #界面交互理解

下載量 503

發布時間 : 1/20/2023

模型概述

該模型旨在理解和解析用戶界面中的引用表達式，幫助用戶通過自然語言指令定位和操作UI組件。

模型特點

UI組件定位

能夠根據自然語言描述準確定位用戶界面中的特定組件。

多模態理解

結合視覺和文本信息，理解用戶界面與自然語言指令的關係。

相對位置描述

支持基於相對位置（如'旁邊的文本框'）的UI組件引用。

屬性識別

能夠識別UI組件的顏色、文本標籤等屬性進行引用。

模型能力

理解用戶界面引用表達式

視覺問答

UI組件定位

多模態信息處理

使用案例

用戶界面輔助

UI組件定位

幫助用戶通過自然語言指令找到特定UI組件。

提高用戶操作效率，減少摸索時間。

無障礙輔助

為視障用戶提供基於語音的UI導航支持。

增強應用的可訪問性。

自動化測試

測試腳本生成

根據自然語言描述自動生成UI測試腳本。

簡化測試流程，提高測試覆蓋率。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Donut Refexp Combined V1

模型概述

模型特點

模型能力

使用案例

🚀 視覺問答模型

📄 許可證

📚 詳細文檔

數據集

模型標籤

交互式示例