OmniParserオープンソース画面解析ツール - 無料でUIスクリーンショットを構造化形式に変換

ホーム

Omniparser

microsoftによって開発

OmniParserは汎用画面解析ツールで、ユーザーインターフェースのスクリーンショットを構造化された形式に解釈/変換し、既存の大規模言語モデル（LLM）ベースのUIエージェントを改善します。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #画面解析 #UI要素検出 #アイコン機能説明

ダウンロード数 847

リリース時間 : 10/7/2024

モデル概要

OmniParserは非構造化のスクリーンショット画像を、インタラクティブ領域の位置やアイコンの潜在的な機能説明を含む構造化された要素リストに変換することを目的としています。PCやスマートフォンのインターフェース、さまざまなアプリケーションのスクリーンショット解析に適しています。

モデル特徴

汎用画面解析

PCやスマートフォンのインターフェース、さまざまなアプリケーションのスクリーンショットを含む多様なスクリーンショットを解析できます。

構造化出力

非構造化のスクリーンショット画像を、インタラクティブ領域の位置やアイコンの潜在的な機能説明を含む構造化された要素リストに変換します。

マルチモデル組み合わせ

インタラクティブアイコン検出用に微調整されたYOLOv8バージョンと、アイコン説明用のBLIP-2モデルが含まれています。

モデル能力

ユーザーインターフェーススクリーンショット解析

インタラクティブ領域検出

アイコン機能説明

構造化データ変換

使用事例

UIエージェント強化

LLMベースのGUIエージェント

スクリーンショットを解析してより正確なインターフェース情報を提供することで、既存の大規模言語モデルベースのUIエージェントを改善します。

エージェントのユーザーインターフェース理解と操作精度が向上します。

アクセシビリティ技術

スクリーンリーダー強化

視覚障害のあるユーザーに、より詳細なインターフェース要素の説明を提供します。

視覚障害ユーザーのデジタルアクセシビリティ体験が改善されます。

🚀 OmniParser

OmniParserは、UIスクリーンショットを構造化形式に解釈・変換する一般的な画面解析ツールです。これにより、既存のLLMベースのUIエージェントを改善することができます。

📢 [プロジェクトページ] [ブログ記事] [デモ]

🚀 クイックスタート

OmniParserは、非構造化のスクリーンショット画像を、対話可能な領域の位置やアイコンの潜在的な機能のキャプションを含む構造化された要素のリストに変換することができます。

✨ 主な機能

UIスクリーンショットを構造化形式に変換し、既存のLLMベースのUIエージェントを改善します。
トレーニングデータセットには、人気のあるウェブページから収集され自動的に注釈付けされた対話可能なアイコン検出データセットと、各UI要素をその対応する機能と関連付けるように設計されたアイコン説明データセットが含まれています。
このモデルハブには、上記のデータセットでそれぞれ微調整されたYOLOv8とBLIP - 2モデルが含まれています。

📚 ドキュメント

モデル概要

OmniParserは、UIスクリーンショットを構造化形式に解釈・変換する一般的な画面解析ツールで、既存のLLMベースのUIエージェントを改善するためのものです。トレーニングデータセットには、1) 人気のあるウェブページから収集され、クリック可能およびアクション可能な領域を強調するように自動的に注釈付けされた対話可能なアイコン検出データセットと、2) 各UI要素をその対応する機能と関連付けるように設計されたアイコン説明データセットが含まれています。

このモデルハブには、上記のデータセットでそれぞれ微調整されたYOLOv8とBLIP - 2モデルが含まれています。使用されるモデルと微調整の詳細については、論文を参照してください。

責任あるAIに関する考慮事項

想定される使用方法

OmniParserは、非構造化のスクリーンショット画像を、対話可能な領域の位置やアイコンの潜在的な機能のキャプションを含む構造化された要素のリストに変換できるように設計されています。
OmniParserは、ユーザーが責任ある分析アプローチを既に学習しており、批判的な推論が期待される環境で使用することを想定しています。OmniParserはスクリーンショットから抽出された情報を提供することができますが、OmniParserの出力には人間の判断が必要です。
OmniParserは、PCや携帯電話を含むさまざまなスクリーンショットや、さまざまなアプリケーションで使用できるように設計されています。

制限事項

OmniParserは、スクリーンショット画像を対話可能な領域と画面のセマンティクスの構造化要素に忠実に変換するように設計されていますが、入力に有害なコンテンツを検出することはできません（ユーザーは任意のLLMの入力を自由に決定できるのと同じです）。ユーザーは、有害でない入力をOmniParserに提供することが期待されています。
OmniParserはスクリーンショット画像をテキストに変換するだけですが、アクション可能なLLMベースのGUIエージェントを構築するために使用することができます。OmniParserを使用してエージェントを開発および運用する際には、開発者は責任を持ち、一般的な安全基準に従う必要があります。
OmniPaser - BLIP2は、アイコン画像内の個人の性別やその他の敏感な属性（例えば、人種、宗教など）を誤って推論する可能性があります。敏感な属性の推論は、特定の個人に関する情報ではなく、ステレオタイプや一般化に依存する可能性があり、マージナル化された人々については誤った推論になる可能性が高くなります。誤った推論は、重大な身体的または心理的な損傷や、個人の人権を制限、侵害または損なう可能性があります。OmniParserを職場のようなシナリオで使用することはお勧めしません。