P

Pix2struct Docvqa Base

googleによって開発
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアで訓練され、画像キャプション生成や視覚QAなど複数のタスクをサポートします。
ダウンロード数 8,601
リリース時間 : 3/21/2023

モデル概要

Pix2Structは純粋な視覚言語理解のための事前訓練済み画像からテキストへのモデルで、視覚化言語を含むタスクに微調整できます。このモデルはウェブスクリーンショットのマスクを簡略化されたHTMLとして解析することで事前訓練され、OCR、言語モデリング、画像キャプションなどの多様な機能をサポートします。

モデル特徴

マルチタスクサポート
画像キャプション生成、視覚QAなど多様な視覚言語タスクをサポート
クロスドメイン能力
文書、イラスト、ユーザーインターフェース、自然画像の4大領域で優れた性能
柔軟な入力統合
言語プロンプトを入力画像に直接レンダリングでき、より柔軟な視覚言語統合を実現

モデル能力

画像理解
テキスト生成
視覚的質問応答
OCR認識
クロスモーダル理解

使用事例

文書処理
スキャン文書QA
スキャン文書から情報を抽出し質問に回答
文書視覚QAタスクで最先端レベルを達成
ウェブ理解
ウェブコンテンツ解析
ウェブスクリーンショットの内容と構造を理解
HTML構造解析による効率的な理解を実現
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase