P

Pix2struct Infographics Vqa Large

Developed by google
Pix2Structは画像エンコーダ-テキストデコーダモデルで、マルチタスク訓練により視覚言語理解タスクを処理し、特に高解像度インフォグラフィックの視覚的質問応答に最適化されています。
Downloads 108
Release Time : 3/21/2023

Model Overview

このモデルは純粋な視覚言語理解のための事前学習済み画像-テキストモデルで、視覚的文脈を含む言語タスクにファインチューニング可能です。ウェブページスクリーンショットのマスクを簡略化HTMLとして解析する事前学習を行い、OCR、言語モデリング、画像キャプション生成など多様な機能をサポートします。

Model Features

マルチタスク事前学習
画像-テキストペアによるマルチタスク訓練で、画像キャプション生成や視覚的質問応答などのタスクをカバー
可変解像度入力
可変解像度入力をサポートし、異なるサイズの視覚入力を処理可能
クロスドメイン能力
文書、イラスト、ユーザーインターフェース、自然画像の4分野で優れた性能を発揮

Model Capabilities

視覚的質問応答
画像キャプション生成
OCR認識
言語モデリング
クロスモーダル理解

Use Cases

教育
図解教材の理解
図解付き教科書の内容理解を学生支援
教材イラストに関する複雑な質問に正確に回答可能
ウェブ分析
ウェブページスクリーンショット解析
ウェブページスクリーンショットの内容と構造を解析
ウェブの視覚要素を構造化HTMLに変換可能
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase