P

Pix2struct Large

googleによって開発
Pix2Structは画像エンコーダー-テキストデコーダーモデルで、画像-テキストペアで訓練され、様々な視覚言語タスクに適用可能
ダウンロード数 6,601
リリース時間 : 3/22/2023

モデル概要

Pix2Structは純粋な視覚言語理解のための事前学習済み画像からテキストへのモデルで、視覚言語を含むタスクに微調整可能、画像キャプション生成、視覚的質問応答など多様な応用をサポート

モデル特徴

多分野適応性
文書、イラスト、ユーザーインターフェース、自然画像の4分野9タスク中6タスクで最先端性能を達成
柔軟な入力統合
言語プロンプトを入力画像に直接レンダリングすることをサポートし、より柔軟な視覚言語入力統合を実現
可変解像度入力
可変解像度入力表現を導入し、異なるサイズの入力画像に対応

モデル能力

画像キャプション生成
視覚的質問応答
ウェブページスクリーンショット解析
文書理解
ユーザーインターフェース理解

使用事例

教育
教科書図解理解
教科書中の図解を解析し記述を生成
ウェブ分析
ウェブページスクリーンショット解析
ウェブページスクリーンショットを構造化HTMLに変換
ユーザーインターフェース
モバイルアプリ画面理解
モバイルアプリ画面中のボタンやフォーム要素を解析
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase