P

Pix2struct Docvqa Large

由google開發
Pix2Struct是基於圖像編碼器-文本解碼器架構的視覺語言模型,專門針對文檔視覺問答任務進行了微調
下載量 984
發布時間 : 3/21/2023

模型概述

該模型通過解析網頁截圖等視覺語言數據進行預訓練,可處理包含文本和圖像的複雜文檔,適用於文檔理解、視覺問答等多種任務

模型特點

多模態理解能力
能同時處理圖像和文本信息,理解文檔中的視覺語言內容
跨領域適應性
在文檔、插圖、用戶界面和自然圖像四大領域表現優異
創新預訓練策略
通過解析網頁截圖掩碼為簡化HTML進行預訓練,獲得豐富的視覺語言理解能力

模型能力

文檔視覺問答
圖像描述生成
跨模態信息理解
多語言文檔處理

使用案例

文檔處理
掃描文檔問答
對掃描的PDF或圖像文檔進行內容理解和問答
在文檔類視覺問答任務中達到先進水平
教育輔助
教科書內容理解
解析帶圖解的教科書內容並回答相關問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase