P

Pix2struct Large

Developed by google
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能
Downloads 6,601
Release Time : 3/22/2023

Model Overview

Pix2Structは純粋な視覚言語理解のための事前学習済み画像からテキストへのモデルで、視覚言語を含むタスクに微調整可能、画像キャプション生成、視覚的質問応答など多様な応用をサポート

Model Features

多分野適応性
文書、イラスト、ユーザーインターフェース、自然画像の4分野9タスク中6タスクで最先端性能を達成
柔軟な入力統合
言語プロンプトを入力画像に直接レンダリングすることをサポートし、より柔軟な視覚言語入力統合を実現
可変解像度入力
可変解像度入力表現を導入し、異なるサイズの入力画像に対応

Model Capabilities

画像キャプション生成
視覚的質問応答
ウェブページスクリーンショット解析
文書理解
ユーザーインターフェース理解

Use Cases

教育
教科書図解理解
教科書中の図解を解析し記述を生成
ウェブ分析
ウェブページスクリーンショット解析
ウェブページスクリーンショットを構造化HTMLに変換
ユーザーインターフェース
モバイルアプリ画面理解
モバイルアプリ画面中のボタンやフォーム要素を解析
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase