P

Pix2struct Base

googleによって開発
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像説明や視覚的質問応答を含む複数のタスクの画像-テキストペアで訓練されています。
ダウンロード数 6,390
リリース時間 : 3/13/2023

モデル概要

Pix2Structは純粋な視覚言語理解のための事前学習済み画像からテキストへのモデルで、視覚言語を含むタスクに微調整できます。ウェブページスクリーンショットのマスクを簡略化されたHTMLとして解析することで事前学習されており、ドキュメント、イラスト、ユーザーインターフェース、自然画像など多様な領域に適用可能です。

モデル特徴

多領域適用性
ドキュメント、イラスト、ユーザーインターフェース、自然画像の4大領域における9つのタスクのうち、6つで最先端の性能を達成。
柔軟な視覚言語統合
可変解像度入力表現とより柔軟な視覚言語入力統合方法を導入し、質問などの言語プロンプトを入力画像に直接レンダリング可能。
多様な事前学習
ウェブページスクリーンショットのマスクを簡略化されたHTMLとして解析することで事前学習され、OCR、言語モデリング、画像説明などの一般的な事前学習信号を網羅。

モデル能力

画像説明
視覚的質問応答
ドキュメント理解
ユーザーインターフェース解析
自然画像理解

使用事例

教育
図解教科書理解
教科書中の画像や図表を解析し、関連する説明を生成したり質問に回答したりする。
ウェブページ解析
ウェブページスクリーンショット解析
ウェブページスクリーンショットからテーブルやボタンなどの構造化情報を抽出する。
ユーザーインターフェース
モバイルアプリインターフェース理解
モバイルアプリのインターフェーススクリーンショットを解析し、ボタンやフォームなどの要素を識別する。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase