オープンソースMatcha-chart2text-statistaモデル - グラフ理解と数値推論を簡単に実現！

Home

Matcha Chart2text Statista

Developed by google

Chart2text-statistaデータセットでファインチューニングされた視覚言語モデルで、グラフ理解と数値推論に優れています

画像生成テキスト

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #グラフ数値推論 #多言語グラフ解析 #構造化データ質問応答

Downloads 73

Release Time : 4/3/2023

Model Overview

このモデルはMatChaシリーズのバリエーションで、グラフ要約タスクに特化して最適化されており、グラフ内容を理解し関連する説明を生成したりグラフ関連の質問に答えたりできます

Model Features

グラフ解析能力

グラフ内の視覚要素とデータ関係を解析可能

数値推論

グラフ内の数値に対して論理的推論や比較が可能

多言語サポート

英語、フランス語、ルーマニア語、ドイツ語など多言語処理をサポート

転移学習能力

スクリーンショット、教科書グラフ、文書イラストなど異なる領域で良好な転移効果を示す

Model Capabilities

グラフ内容理解

視覚質問応答

数値比較

グラフ要約生成

多言語グラフ処理

Use Cases

ビジネス分析

ビジネスグラフ解釈

統計グラフを自動分析しキーインサイトを生成

データ分析効率の向上

教育

教材グラフ補助理解

教科書内の複雑なグラフ理解を学生支援

学習効果の向上

🚀 MatCha - Chart2text - statistaでファインチューニングされたモデルカード

このモデルは、Chart2text - statistaデータセットでファインチューニングされたMatChaモデルです。このファインチューニングされたチェックポイントは、チャート要約タスクにより適している可能性があります。

drawing

🚀 クイックスタート

このセクションでは、MatChaモデルの基本的な使い方を説明します。具体的な質問をモデルに投げることで、一貫した生成結果を得ることができます。

✨ 主な機能

チャート要約タスクに適したファインチューニング済みモデルです。
標準的なベンチマークであるPlotQAやChartQAで、最先端の手法を最大で約20％上回る性能を発揮します。
スクリーンショット、教科書の図、文書の図などのドメインへの転移学習も良好です。

📦 インストール

このモデルを使用するには、transformersライブラリが必要です。以下のコマンドでインストールできます。

pip install transformers

💻 使用例

基本的な使用法

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('google/matcha-chart2text-statista')
model = Pix2StructForConditionalGeneration.from_pretrained('google/matcha-chart2text-statista')

url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/20294671002019.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, text="Is the sum of all 4 places greater than Laos?", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
>>> No

T5xからHugging Faceへの変換

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

大規模モデルを変換する場合は、以下のコマンドを実行します。

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存後、以下のコードで変換したモデルをHugging Face Hubにプッシュできます。

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

📚 ドキュメント

TL;DR

論文の概要は以下の通りです。

グラフ、チャート、インフォグラフィックなどの視覚言語データは、人間の世界では至る所に存在します。しかし、最先端のビジョン言語モデルはこれらのデータではうまく機能しません。私たちはMATCHA（数学的推論とチャートの逆レンダリング事前学習）を提案し、チャート/プロットと言語データを共同でモデル化するビジョン言語モデルの能力を向上させます。具体的には、ビジョン言語モデリングにおける重要な能力であるプロットの分解と数値推論をカバーするいくつかの事前学習タスクを提案します。私たちは、最近提案された画像からテキストへのビジョン言語モデルであるPix2Structから始めてMATCHAの事前学習を行います。PlotQAやChartQAなどの標準的なベンチマークでは、MATCHAモデルは最先端の手法を最大で約20％上回ります。また、MATCHAの事前学習がスクリーンショット、教科書の図、文書の図などのドメインにどれだけ転移するかを調べ、全体的な改善を観察し、より広範なビジョン言語タスクにおけるMATCHAの事前学習の有用性を検証します。

🔧 技術詳細

論文では、MATCHAの事前学習タスクとして、プロットの分解と数値推論をカバーするいくつかのタスクを提案しています。これらのタスクは、ビジョン言語モデリングにおける重要な能力であり、MATCHAモデルの性能向上に寄与しています。

📄 ライセンス

このモデルはApache - 2.0ライセンスの下で提供されています。

🔗 貢献者

このモデルは、Fangyu Liu、Francesco Piccinnoらによって最初に貢献され、Younes BelkadaによってHugging Faceエコシステムに追加されました。

📖 引用

この研究を引用する場合は、以下の論文を引用してください。

@misc{liu2022matcha,
      title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
      author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
      year={2022},
      eprint={2212.09662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}