M

Matcha Chart2text Pew

由google開發
MatCha是基於Pix2Struct架構的視覺語言模型,專門針對圖表理解和數值推理任務進行優化,在圖表問答任務中表現優異
下載量 168
發布時間 : 4/3/2023

模型概述

該模型通過聯合建模圖表與語言數據來增強視覺語言能力,特別設計了圖表解構和數值推理等預訓練任務,適用於圖表摘要和問答場景

模型特點

圖表理解能力
專門針對圖表、曲線圖等信息圖進行優化,具備出色的視覺語言理解能力
數值推理能力
模型內建數學推理能力,可處理圖表中的數值計算和邏輯推理任務
遷移學習能力
在屏幕截圖、教科書圖表和文檔插圖等不同領域展現出良好的遷移效果

模型能力

圖表解析
圖表摘要生成
視覺問答
數值推理
多語言圖表理解

使用案例

數據分析
商業圖表分析
自動解析商業報告中的圖表並生成摘要
在ChartQA基準測試中超越之前最佳方法20%
教育
教科書圖表理解
幫助學生理解教科書中的複雜圖表
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase