P

Pix2struct Ai2d Large

由google開發
Pix2Struct是一個基於視覺問答任務微調的大規模圖像到文本模型,專門用於科學圖表的視覺問答
下載量 28
發布時間 : 3/21/2023

模型概述

Pix2Struct是一個圖像編碼器-文本解碼器模型,通過圖像-文本對訓練,支持多種任務,包括圖像描述生成和視覺問答。該版本專門針對科學圖表(AI2D數據集)的視覺問答任務進行了微調。

模型特點

多任務支持
通過單一模型架構支持多種視覺語言任務,包括視覺問答和圖像描述生成
HTML結構預訓練
通過解析網頁截圖掩碼為簡化HTML進行預訓練,有效學習視覺元素與文本的關聯
可變分辨率輸入
支持可變分辨率輸入表示,適應不同尺寸的輸入圖像
靈活提示整合
問題等語言提示可直接渲染在輸入圖像上,實現更靈活的視覺語言輸入整合

模型能力

科學圖表理解
視覺問答
圖像文本關聯
多語言支持

使用案例

教育
科學教材圖表問答
幫助學生理解科學教材中的複雜圖表和圖示
能準確回答圖表中的標註內容問題
研究
科學論文圖表分析
自動解析科研論文中的實驗數據圖表
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase