P

Pix2struct Base

由google開發
Pix2Struct是一種圖像編碼器-文本解碼器模型,通過多種任務的圖像-文本對訓練,包括圖像描述和視覺問答。
下載量 6,390
發布時間 : 3/13/2023

模型概述

Pix2Struct是一個純視覺語言理解的預訓練圖像到文本模型,可微調用於包含視覺語言的任務。通過解析網頁截圖掩碼為簡化HTML進行預訓練,適用於文檔、插圖、用戶界面和自然圖像等多種領域。

模型特點

多領域適用性
在文檔、插圖、用戶界面和自然圖像四大領域的九項任務中,六項達到最先進水平。
靈活的視覺語言整合
引入了可變分辨率輸入表示和更靈活的視覺語言輸入整合方式,問題等語言提示可直接渲染在輸入圖像上。
多樣化預訓練
通過解析網頁截圖掩碼為簡化HTML進行預訓練,涵蓋OCR、語言建模、圖像描述等常見預訓練信號。

模型能力

圖像描述
視覺問答
文檔理解
用戶界面解析
自然圖像理解

使用案例

教育
圖解教科書理解
解析教科書中的圖像和圖表,生成相關描述或回答問題。
網頁解析
網頁截圖解析
從網頁截圖中提取結構化信息,如表格、按鈕等元素。
用戶界面
移動應用界面理解
解析移動應用界面截圖,識別按鈕、表單等元素。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase