ドーナツ - refexp - 結合 - v1オープンソースモデル - ビジュアル質問応答を支援し、ユーザーインターフェイスの参照表現を正確に理解する

ホーム

Donut Refexp Combined V1

ivelinによって開発

ユーザーインターフェースの参照表現理解に特化した視覚的質問応答タスク用モデル。

テキスト生成画像

Transformers

英語#UIコンポーネント位置特定 #視覚的参照解析 #インターフェース相互作用理解

ダウンロード数 503

リリース時間 : 1/20/2023

モデル概要

このモデルは、ユーザーインターフェース内の参照表現を理解・解析し、自然言語指示によるUIコンポーネントの位置特定と操作を支援します。

モデル特徴

UIコンポーネント位置特定

自然言語記述に基づきユーザーインターフェース内の特定コンポーネントを正確に位置特定可能。

マルチモーダル理解

視覚情報とテキスト情報を統合し、ユーザーインターフェースと自然言語指示の関係性を理解。

相対位置記述

'隣のテキストボックス'などの相対位置に基づくUIコンポーネント参照をサポート。

属性識別

UIコンポーネントの色やテキストラベルなどの属性を識別して参照可能。

モデル能力

ユーザーインターフェース参照表現の理解

視覚的質問応答

UIコンポーネント位置特定

マルチモーダル情報処理

使用事例

ユーザーインターフェース支援

UIコンポーネント位置特定

自然言語指示による特定UIコンポーネントの検索を支援。

ユーザー操作効率向上、探索時間削減。

アクセシビリティ支援

視覚障害ユーザー向け音声ベースUIナビゲーションを提供。

アプリケーションのアクセシビリティ向上。

自動テスト

テストスクリプト生成

自然言語記述に基づきUIテストスクリプトを自動生成。

テストプロセス簡素化、テストカバレッジ向上。

属性	详情
パイプラインタグ	視覚的質問応答
タグ	UI refexp
訓練データセット	ivelin/rico_refexp_combined

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Donut Refexp Combined V1

モデル概要

モデル特徴

モデル能力

使用事例

🚀 視覚的質問応答モデル

🚀 クイックスタート

ウィジェット例

📄 ライセンス

📦 関連情報