P

Pix2struct Ai2d Large

Developed by google
Pix2Struct是一個基於視覺問答任務微調的大規模圖像到文本模型,專門用於科學圖表的視覺問答
Downloads 28
Release Time : 3/21/2023

Model Overview

Pix2Struct是一個圖像編碼器-文本解碼器模型,通過圖像-文本對訓練,支持多種任務,包括圖像描述生成和視覺問答。該版本專門針對科學圖表(AI2D數據集)的視覺問答任務進行了微調。

Model Features

多任務支持
通過單一模型架構支持多種視覺語言任務,包括視覺問答和圖像描述生成
HTML結構預訓練
通過解析網頁截圖掩碼為簡化HTML進行預訓練,有效學習視覺元素與文本的關聯
可變分辨率輸入
支持可變分辨率輸入表示,適應不同尺寸的輸入圖像
靈活提示整合
問題等語言提示可直接渲染在輸入圖像上,實現更靈活的視覺語言輸入整合

Model Capabilities

科學圖表理解
視覺問答
圖像文本關聯
多語言支持

Use Cases

教育
科學教材圖表問答
幫助學生理解科學教材中的複雜圖表和圖示
能準確回答圖表中的標註內容問題
研究
科學論文圖表分析
自動解析科研論文中的實驗數據圖表
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase