P

Pix2struct Chartqa Base

Developed by google
Pix2Struct是一種圖像編碼器-文本解碼器模型,通過圖像-文本配對數據進行多任務訓練,專門針對圖表問答任務進行微調
Downloads 181
Release Time : 3/21/2023

Model Overview

該模型是Pix2Struct架構在ChartQA數據集上的微調版本,專門用於解析圖表圖像並回答相關問題,支持多語言圖表理解

Model Features

多任務預訓練
通過圖像描述生成和視覺問答等多任務進行預訓練,增強模型理解能力
多語言支持
支持英語、法語、羅馬尼亞語和德語等多種語言的圖表理解
HTML結構解析
創新性地通過解析網頁截圖掩碼為簡化HTML進行預訓練,豐富視覺元素理解

Model Capabilities

圖表圖像理解
視覺問答
多語言文本生成
結構化數據提取

Use Cases

教育
教科書圖表解析
幫助學生理解教科書中的複雜圖表和數據可視化內容
可準確回答關於圖表數據的各類問題
商業智能
商業報告分析
自動解析商業報告中的圖表和數據可視化
快速提取關鍵業務指標和趨勢信息
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase