matcha-chart2text-pewオープンソースビジュアル言語モデル - チャート理解と数値推論を最適化、質問応答に卓越

ホーム

Matcha Chart2text Pew

googleによって開発

MatChaはPix2Structアーキテクチャに基づく視覚言語モデルで、グラフ理解と数値推論タスクに特化して最適化されており、グラフ質問応答タスクで優れた性能を発揮します

画像生成テキスト

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #グラフ解析 #数値推論 #多言語グラフ要約

ダウンロード数 168

リリース時間 : 4/3/2023

モデル概要

このモデルはグラフと言語データの連合モデリングを通じて視覚言語能力を強化し、特にグラフ解釈や数値推論などの事前学習タスクを設計しており、グラフ要約や質問応答シナリオに適しています

モデル特徴

グラフ理解能力

グラフやチャートなどのインフォグラフィックに特化して最適化されており、優れた視覚言語理解能力を備えています

数値推論能力

モデル内に数学的推論能力を組み込んでおり、グラフ内の数値計算や論理的推論タスクを処理できます

転移学習能力

スクリーンショット、教科書のグラフ、ドキュメントのイラストなど、さまざまな分野で良好な転移効果を示しています

モデル能力

グラフ解析

グラフ要約生成

視覚的質問応答

数値推論

多言語グラフ理解

使用事例

データ分析

ビジネスグラフ分析

ビジネスレポート内のグラフを自動解析して要約を生成

ChartQAベンチマークテストで従来の最良手法を20%上回りました

教育

教科書グラフ理解

教科書内の複雑なグラフを学生が理解するのを支援

🚀 MatCha - Chart2text - pewでファインチューニングされたモデル

このモデルはMatChaモデルで、Chart2text - pewデータセットでファインチューニングされています。このファインチューニングされたチェックポイントは、チャート要約タスクにより適している可能性があります。

🚀 クイックスタート

📚 要約

論文の概要には以下のように記載されています。

グラフ、チャート、インフォグラフィックなどの視覚言語データは、人間の世界に遍在しています。しかし、最先端のビジョン言語モデルはこれらのデータに対してうまく機能しません。私たちはMATCHA（数学的推論とチャートの逆レンダリング事前学習）を提案し、チャート/グラフと言語データを共同でモデリングするビジョン言語モデルの能力を強化します。具体的には、ビジョン言語モデリングにおける重要な能力であるグラフの分解と数値推論をカバーするいくつかの事前学習タスクを提案します。私たちは、最近提案された画像からテキストへのビジョン言語モデルであるPix2Structから始めてMATCHAの事前学習を行います。PlotQAやChartQAなどの標準的なベンチマークでは、MATCHAモデルは最先端の方法を最大で約20％上回っています。また、MATCHAの事前学習がスクリーンショット、教科書の図、文書の図などのドメインにどれだけ転移するかを調べ、全体的な改善を観察し、より広範なビジョン言語タスクに対するMATCHAの事前学習の有用性を検証しています。

💻 使用例

基本的な使用法

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('google/matcha-chart2text-pew')
model = Pix2StructForConditionalGeneration.from_pretrained('google/matcha-chart2text-pew')

url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/20294671002019.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))

T5xからHugging Faceへの変換

convert_pix2struct_checkpoint_to_pytorch.py スクリプトを以下のように使用できます。

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

大規模なモデルを変換する場合は、以下を実行します。

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存したら、以下のコードで変換したモデルをプッシュできます。

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

🤝 貢献者

このモデルは、もともとLiu Fangyu、Francesco Piccinnoらによって貢献され、Younes BelkadaによってHugging Faceエコシステムに追加されました。

📄 引用

この研究を引用する場合は、元の論文を引用してください。

@misc{liu2022matcha,
      title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
      author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
      year={2022},
      eprint={2212.09662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}