Omniparser
OmniParserは汎用画面解析ツールで、ユーザーインターフェースのスクリーンショットを構造化された形式に解釈/変換し、既存の大規模言語モデル(LLM)ベースのUIエージェントを改善します。
ダウンロード数 847
リリース時間 : 10/7/2024
モデル概要
OmniParserは非構造化のスクリーンショット画像を、インタラクティブ領域の位置やアイコンの潜在的な機能説明を含む構造化された要素リストに変換することを目的としています。PCやスマートフォンのインターフェース、さまざまなアプリケーションのスクリーンショット解析に適しています。
モデル特徴
汎用画面解析
PCやスマートフォンのインターフェース、さまざまなアプリケーションのスクリーンショットを含む多様なスクリーンショットを解析できます。
構造化出力
非構造化のスクリーンショット画像を、インタラクティブ領域の位置やアイコンの潜在的な機能説明を含む構造化された要素リストに変換します。
マルチモデル組み合わせ
インタラクティブアイコン検出用に微調整されたYOLOv8バージョンと、アイコン説明用のBLIP-2モデルが含まれています。
モデル能力
ユーザーインターフェーススクリーンショット解析
インタラクティブ領域検出
アイコン機能説明
構造化データ変換
使用事例
UIエージェント強化
LLMベースのGUIエージェント
スクリーンショットを解析してより正確なインターフェース情報を提供することで、既存の大規模言語モデルベースのUIエージェントを改善します。
エージェントのユーザーインターフェース理解と操作精度が向上します。
アクセシビリティ技術
スクリーンリーダー強化
視覚障害のあるユーザーに、より詳細なインターフェース要素の説明を提供します。
視覚障害ユーザーのデジタルアクセシビリティ体験が改善されます。
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98