P

Pix2struct Base

Developed by google
Pix2Struct是一种图像编码器-文本解码器模型,通过多种任务的图像-文本对训练,包括图像描述和视觉问答。
Downloads 6,390
Release Time : 3/13/2023

Model Overview

Pix2Struct是一个纯视觉语言理解的预训练图像到文本模型,可微调用于包含视觉语言的任务。通过解析网页截图掩码为简化HTML进行预训练,适用于文档、插图、用户界面和自然图像等多种领域。

Model Features

多领域适用性
在文档、插图、用户界面和自然图像四大领域的九项任务中,六项达到最先进水平。
灵活的视觉语言整合
引入了可变分辨率输入表示和更灵活的视觉语言输入整合方式,问题等语言提示可直接渲染在输入图像上。
多样化预训练
通过解析网页截图掩码为简化HTML进行预训练,涵盖OCR、语言建模、图像描述等常见预训练信号。

Model Capabilities

图像描述
视觉问答
文档理解
用户界面解析
自然图像理解

Use Cases

教育
图解教科书理解
解析教科书中的图像和图表,生成相关描述或回答问题。
网页解析
网页截图解析
从网页截图中提取结构化信息,如表格、按钮等元素。
用户界面
移动应用界面理解
解析移动应用界面截图,识别按钮、表单等元素。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase