OmniParser-v2.0オープンソーススクリーン解析ツール - UIスクリーンショットを無料で構造化形式に変換

ホーム

Omniparser V2.0

microsoftによって開発

OmniParserは汎用スクリーン解析ツールで、UIスクリーンショットを解釈/構造化フォーマットに変換し、LLMベースのUIエージェントの性能を向上させます。

画像生成テキスト

Transformers

オープンソースライセンス:MIT #UI要素解析 #低遅延処理 #マルチモーダルエージェント

ダウンロード数 6,729

リリース時間 : 2/12/2025

モデル概要

OmniParserは非構造化スクリーンショット画像を、インタラクティブ領域の位置やアイコンの潜在機能説明を含む構造化要素リストに変換するように設計されています。PCやスマートフォンを含むあらゆるスクリーンショットや多様なアプリケーションシナリオに適用可能です。

モデル特徴

効率的な解析

V1と比較して遅延60%削減、A100で0.6秒/フレーム、単体4090で0.8秒。

大規模データセット

トレーニングデータセットにはインタラクティブアイコン検出データセットとアイコン記述データセットが含まれ、より大規模でクリーンです。

強力な性能

ScreenSpot Proで39.6の平均精度を達成。

マルチモデルサポート

OpenAI、DeepSeek、Qwen、Anthropic Computer Useなど様々な大規模言語モデルをすぐにサポート。

モデル能力

UIスクリーンショット解析

インタラクティブ領域検出

アイコン機能説明

構造化データ変換

使用事例

UIエージェント開発

LLMベースのGUIエージェント

OmniParser+任意の視覚モデルでWindows 11仮想マシンを制御。

エージェントのUI理解と操作能力を向上

自動テスト

UI要素検出

アプリケーション内のインタラクティブ要素を自動検出・記述。

テストカバレッジと効率を向上

🚀 OmniParser

OmniParserは、UIスクリーンショットを構造化形式に解釈・変換する一般的な画面解析ツールです。これにより、既存のLLMベースのUIエージェントを向上させることができます。

📢 [GitHubリポジトリ] [OmniParser V2ブログ記事] Huggingfaceデモ

🚀 クイックスタート

OmniParserは、UIスクリーンショットを構造化形式に変換することで、既存のLLMベースのUIエージェントを向上させるための一般的な画面解析ツールです。

✨ 主な機能

非構造化のスクリーンショット画像を、対話可能な領域の位置やアイコンの機能説明を含む構造化された要素リストに変換します。
トレーニングデータセットには、人気のあるウェブページから収集され自動アノテーションされた対話可能なアイコン検出データセットと、各UI要素をその対応する機能と関連付けるためのアイコン説明データセットが含まれています。
このモデルハブには、上記のデータセットでファインチューニングされたYOLOv8とFlorence - 2ベースモデルがそれぞれ含まれています。

📦 インストール

インストールに関する具体的な手順は、原ドキュメントに記載されていないため、このセクションをスキップします。

💻 使用例

使用例に関する具体的なコードは、原ドキュメントに記載されていないため、このセクションをスキップします。

📚 ドキュメント

モデル概要

OmniParserは、UIスクリーンショットを構造化形式に解釈・変換する一般的な画面解析ツールで、既存のLLMベースのUIエージェントを向上させます。トレーニングデータセットには、以下の2つが含まれています。

人気のあるウェブページから収集され、クリック可能な領域を強調するために自動アノテーションされた対話可能なアイコン検出データセット。
各UI要素をその対応する機能と関連付けるためのアイコン説明データセット。

このモデルハブには、上記のデータセットでそれぞれファインチューニングされたYOLOv8とFlorence - 2ベースモデルが含まれています。使用されるモデルとファインチューニングの詳細については、論文を参照してください。

V2の新機能

より大規模でクリーンなアイコンキャプション + グラウンディングデータセット。
V1と比較してレイテンシが60%改善。A100で平均0.6秒/フレーム、単一の4090で0.8秒。
強力なパフォーマンス：ScreenSpot Proで平均39.6の精度。
エージェントは1つのツール（OmniTool）だけで済みます。OmniParser + 任意のビジョンモデルでWindows 11 VMを制御できます。OmniToolは、OpenAI (4o/o1/o3 - mini)、DeepSeek (R1)、Qwen (2.5VL)、またはAnthropic Computer Useなどの大規模言語モデルをサポートしています。詳細はGitHubリポジトリをチェックしてください。

責任あるAIに関する考慮事項

意図された使用方法

OmniParserは、非構造化のスクリーンショット画像を、対話可能な領域の位置やアイコンの機能説明を含む構造化された要素リストに変換するように設計されています。
OmniParserは、ユーザーが責任ある分析アプローチを学んでおり、批判的な推論が求められる環境で使用することを想定しています。OmniParserはスクリーンショットから情報を抽出することができますが、その出力には人間の判断が必要です。
OmniParserは、PCや携帯電話のさまざまなスクリーンショットや、さまざまなアプリケーションで使用できるように設計されています。

制限事項

OmniParserは、スクリーンショット画像を構造化された要素に忠実に変換するように設計されていますが、入力に有害なコンテンツを検出する機能はありません（他のLLMと同様に、ユーザーが入力を自由に決定できます）。ユーザーは有害でない入力を提供する必要があります。
OmniParserはスクリーンショット画像をテキストに変換するだけですが、LLMベースのGUIエージェントを構築するために使用できます。OmniParserを使用してエージェントを開発および運用する際には、開発者は責任を持って一般的な安全基準に従う必要があります。