P

Pix2struct Docvqa Large

googleによって開発
Pix2Structは画像エンコーダー-テキストデコーダーアーキテクチャに基づく視覚言語モデルで、ドキュメント視覚質問応答タスク向けに特別にファインチューニングされています
ダウンロード数 984
リリース時間 : 3/21/2023

モデル概要

このモデルはウェブページのスクリーンショットなどの視覚言語データを解析して事前学習されており、テキストと画像を含む複雑なドキュメントを処理でき、ドキュメント理解や視覚質問応答など様々なタスクに適用可能です

モデル特徴

マルチモーダル理解能力
画像とテキスト情報を同時に処理し、ドキュメント内の視覚言語コンテンツを理解できます
クロスドメイン適応性
ドキュメント、イラスト、ユーザーインターフェース、自然画像の4大領域で優れた性能を発揮します
革新的な事前学習戦略
ウェブページスクリーンショットのマスクを簡略化HTMLとして解析して事前学習することで、豊富な視覚言語理解能力を獲得しています

モデル能力

ドキュメント視覚質問応答
画像キャプション生成
クロスモーダル情報理解
多言語ドキュメント処理

使用事例

ドキュメント処理
スキャン文書質問応答
スキャンしたPDFや画像文書の内容理解と質問応答
ドキュメント類視覚質問応答タスクで先進的なレベルを達成
教育支援
教科書内容理解
図解付き教科書の内容を解析し関連質問に回答
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase