P

Pix2struct Textcaps Large

googleによって開発
Pix2Structは、画像からテキストへの変換を通じて多タスク学習を行うビジュアル言語理解モデルで、画像記述生成やビジュアル質問応答などのタスクをサポートします。
ダウンロード数 128
リリース時間 : 3/13/2023

モデル概要

Pix2Structは画像エンコーダー - テキストデコーダーモデルで、ウェブページのスクリーンショットなどのビジュアル要素を解析して事前学習を行い、文書、イラスト、ユーザーインターフェース、自然画像の理解を含むさまざまなビジュアル言語タスクに対応できます。

モデル特徴

多タスク学習
画像 - テキストペアを使用して、画像記述生成やビジュアル質問応答を含む多タスク学習を行います。
可変解像度入力
可変解像度の入力表現をサポートし、さまざまなサイズの画像入力に対応します。
柔軟な言語ビジュアル統合
言語プロンプトを入力画像上に直接レンダリングすることで、より柔軟な言語ビジュアル入力の統合を実現します。

モデル能力

画像記述生成
ビジュアル質問応答
OCR
言語モデリング

使用事例

画像理解
街頭風景の標識識別
街頭風景の標識の内容を識別して記述します。
標識に書かれた「STOP」という文字を成功に識別して記述しました。
文書処理
ウェブページスクリーンショット解析
ウェブページのスクリーンショットを解析し、対応するテキスト記述を生成します。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase