P

Pix2struct Refexp Base

由gitlost-murali開發
Pix2Struct是一個圖像編碼器-文本解碼器模型,針對多種視覺語言任務進行訓練,包括圖像描述和視覺問答。
下載量 20
發布時間 : 7/1/2023

模型概述

Pix2Struct是一個純視覺語言理解的預訓練圖像到文本模型,可微調用於包含視覺語言的任務。通過將網頁截圖解析為簡化HTML進行預訓練,支持多種視覺語言任務。

模型特點

多任務支持
可微調用於多種視覺語言任務,包括圖像描述、視覺問答等。
多語言支持
支持英語、法語、羅馬尼亞語和德語等多種語言。
靈活輸入處理
支持可變分辨率輸入表示和語言視覺輸入集成,問題等語言提示可直接渲染在輸入圖像上。

模型能力

圖像描述生成
視覺問答
引用表達式識別
多語言文本生成

使用案例

用戶界面分析
UI元素識別
識別用戶界面中的元素並生成描述文本。
可準確識別UI元素並生成相關描述。
文檔處理
圖像轉文本
將文檔圖像轉換為結構化文本。
支持OCR和語言建模,生成準確的文本描述。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase