P

Pix2struct Infographics Vqa Large

googleによって開発
Pix2Structは画像エンコーダ-テキストデコーダモデルで、マルチタスク訓練により視覚言語理解タスクを処理し、特に高解像度インフォグラフィックの視覚的質問応答に最適化されています。
ダウンロード数 108
リリース時間 : 3/21/2023

モデル概要

このモデルは純粋な視覚言語理解のための事前学習済み画像-テキストモデルで、視覚的文脈を含む言語タスクにファインチューニング可能です。ウェブページスクリーンショットのマスクを簡略化HTMLとして解析する事前学習を行い、OCR、言語モデリング、画像キャプション生成など多様な機能をサポートします。

モデル特徴

マルチタスク事前学習
画像-テキストペアによるマルチタスク訓練で、画像キャプション生成や視覚的質問応答などのタスクをカバー
可変解像度入力
可変解像度入力をサポートし、異なるサイズの視覚入力を処理可能
クロスドメイン能力
文書、イラスト、ユーザーインターフェース、自然画像の4分野で優れた性能を発揮

モデル能力

視覚的質問応答
画像キャプション生成
OCR認識
言語モデリング
クロスモーダル理解

使用事例

教育
図解教材の理解
図解付き教科書の内容理解を学生支援
教材イラストに関する複雑な質問に正確に回答可能
ウェブ分析
ウェブページスクリーンショット解析
ウェブページスクリーンショットの内容と構造を解析
ウェブの視覚要素を構造化HTMLに変換可能
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase