オープンソースMatcha - base視覚言語モデル - グラフ理解と数学推論能力を強化！

ホーム

Matcha Base

googleによって開発

MatChaはグラフ理解と数学的推論に特化した視覚言語モデルで、グラフと言語データの共同モデリングにより処理能力を強化

テキスト生成画像

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #グラフ解読 #数値推論 #視覚的質問応答

ダウンロード数 2,445

リリース時間 : 4/3/2023

モデル概要

このモデルはPix2Structアーキテクチャを基盤とし、グラフ解読や数値推論タスク向けに事前学習されており、PlotQAやChartQAなどのベンチマークで優れた性能を発揮

モデル特徴

グラフ解読能力

特別設計された事前学習タスクにより、グラフ内の視覚要素やデータ構造を効果的に解析可能

数値推論能力

数学的計算と論理的推論能力を強化し、グラフ内の数値関係分析を処理可能

分野横断的転移

スクリーンショット、教科書グラフ、文書挿絵など多様な視覚言語タスクで良好な転移効果を発揮

モデル能力

グラフ内容理解

視覚的質問応答

数値計算推論

多言語グラフ分析

使用事例

データ分析

ビジネスグラフ分析

棒グラフ/折れ線グラフのデータトレンドや主要指標を自動解釈

ChartQAベンチマークで従来の最良手法を20%上回る

教育支援

教科書グラフ理解

教材内の複雑なグラフを解析し文章説明を生成

教科書グラフ領域での転移効果を検証

🚀 MatCha - ベースモデル

このモデルはMatChaのベースモデルです。ファインチューニング目的でのみ使用できます。

drawing

🚀 クイックスタート

TL;DR

論文の概要は以下の通りです。

プロット、チャート、インフォグラフィックなどの視覚言語データは人間の世界では至る所に存在します。しかし、最先端のビジョン言語モデルはこれらのデータではうまく機能しません。私たちはMATCHA（数学的推論とチャートのデレンダリング事前学習）を提案し、チャート/プロットと言語データを共同でモデル化するビジョン言語モデルの能力を強化します。具体的には、視覚言語モデリングにおける重要な能力であるプロットの分解と数値推論をカバーするいくつかの事前学習タスクを提案します。私たちは、最近提案された画像からテキストへのビジョン言語モデルであるPix2Structから始めてMATCHAの事前学習を行います。PlotQAやChartQAなどの標準的なベンチマークでは、MATCHAモデルは最先端の方法を最大で約20％上回っています。また、MATCHAの事前学習がスクリーンショット、教科書の図、文書の図などのドメインにどれだけうまく転移するかを調べ、全体的な改善を観察し、より広範な視覚言語タスクに対するMATCHA事前学習の有用性を検証しました。

💻 使用例

基本的な使用法

from transformers import Pix2StructProcessor, Pix2StructForConditionalGeneration
import requests
from PIL import Image

processor = Pix2StructProcessor.from_pretrained('google/matcha-base')
model = Pix2StructForConditionalGeneration.from_pretrained('google/matcha-base')

url = "https://raw.githubusercontent.com/vis-nlp/ChartQA/main/ChartQA%20Dataset/val/png/20294671002019.png"
image = Image.open(requests.get(url, stream=True).raw)

inputs = processor(images=image, text="Is the sum of all 4 places greater than Laos?", return_tensors="pt")
predictions = model.generate(**inputs, max_new_tokens=512)
print(processor.decode(predictions[0], skip_special_tokens=True))
>>> No

高度な使用法

T5xからHugging Faceへの変換

以下のように、convert_pix2struct_checkpoint_to_pytorch.py スクリプトを使用できます。

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --is_vqa

大規模モデルを変換する場合は、以下を実行します。

python convert_pix2struct_checkpoint_to_pytorch.py --t5x_checkpoint_path PATH_TO_T5X_CHECKPOINTS --pytorch_dump_path PATH_TO_SAVE --use-large --is_vqa

保存したら、以下のスニペットで変換したモデルをプッシュできます。

from transformers import Pix2StructForConditionalGeneration, Pix2StructProcessor

model = Pix2StructForConditionalGeneration.from_pretrained(PATH_TO_SAVE)
processor = Pix2StructProcessor.from_pretrained(PATH_TO_SAVE)

model.push_to_hub("USERNAME/MODEL_NAME")
processor.push_to_hub("USERNAME/MODEL_NAME")

🤝 貢献

このモデルはもともとFangyu Liu、Francesco Piccinnoらによって貢献され、Younes BelkadaによってHugging Faceエコシステムに追加されました。

📚 引用

この研究を引用する場合は、元の論文を引用してください。

@misc{liu2022matcha,
      title={MatCha: Enhancing Visual Language Pretraining with Math Reasoning and Chart Derendering}, 
      author={Fangyu Liu and Francesco Piccinno and Syrine Krichene and Chenxi Pang and Kenton Lee and Mandar Joshi and Yasemin Altun and Nigel Collier and Julian Martin Eisenschlos},
      year={2022},
      eprint={2212.09662},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

このモデルはApache-2.0ライセンスの下で提供されています。

| 属性 | 詳情 |
|------|------|
| 言語 | 英語、フランス語、ルーマニア語、ドイツ語、多言語 |
| 推論 | 否 |
| パイプラインタグ | 視覚的質問応答 |
| ライセンス | Apache-2.0 |
| タグ | matcha |

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご