P

Pix2struct Textcaps Large

Developed by google
Pix2Struct是一個視覺語言理解模型,通過圖像到文本的轉換進行多任務訓練,支持圖像描述生成和視覺問答等任務。
Downloads 128
Release Time : 3/13/2023

Model Overview

Pix2Struct是一個圖像編碼器-文本解碼器模型,通過解析網頁截圖等視覺元素進行預訓練,能夠適應多種視覺語言任務,包括文檔、插圖、用戶界面和自然圖像的理解。

Model Features

多任務訓練
通過圖像-文本對進行多任務訓練,包括圖像描述生成和視覺問答。
可變分辨率輸入
支持可變分辨率輸入表示,適應不同尺寸的圖像輸入。
靈活的語言視覺集成
語言提示直接渲染在輸入圖像上,實現更靈活的語言視覺輸入集成。

Model Capabilities

圖像描述生成
視覺問答
OCR
語言建模

Use Cases

圖像理解
街景標識識別
識別並描述街景中的標識牌內容。
成功識別並描述標識牌上的'STOP'字樣。
文檔處理
網頁截圖解析
解析網頁截圖並生成對應的文本描述。
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase