P

Pix2struct Large

由google開發
Pix2Struct是一個圖像編碼器-文本解碼器模型,通過圖像-文本對訓練,適用於多種視覺語言任務
下載量 6,601
發布時間 : 3/22/2023

模型概述

Pix2Struct是一個純視覺語言理解的預訓練圖像到文本模型,可微調用於包含視覺語言的任務,支持圖像描述生成、視覺問答等多種應用

模型特點

多領域適應性
在文檔、插圖、用戶界面和自然圖像四大領域九項任務中六項達到最先進水平
靈活輸入整合
支持將語言提示直接渲染到輸入圖像上,實現更靈活的視覺語言輸入整合
可變分辨率輸入
引入可變分辨率輸入表示,適應不同尺寸的輸入圖像

模型能力

圖像描述生成
視覺問答
網頁截圖解析
文檔理解
用戶界面理解

使用案例

教育
教科書圖解理解
解析教科書中的圖解並生成描述
網頁分析
網頁截圖解析
將網頁截圖轉換為結構化HTML
用戶界面
移動應用界面理解
解析移動應用界面中的按鈕和表單元素
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase