P

Pix2struct Chartqa Base

googleによって開発
Pix2Structは画像エンコーダ-テキストデコーダモデルで、画像-テキストペアデータによるマルチタスク学習を行い、特にチャートQAタスク向けにファインチューニングされています
ダウンロード数 181
リリース時間 : 3/21/2023

モデル概要

このモデルはPix2StructアーキテクチャをChartQAデータセットでファインチューニングしたバージョンで、チャート画像の解析と関連質問への回答に特化しており、多言語チャート理解をサポートします

モデル特徴

マルチタスク事前学習
画像キャプション生成や視覚QAなどのマルチタスクで事前学習を行い、モデルの理解能力を強化
多言語サポート
英語、フランス語、ルーマニア語、ドイツ語など多言語のチャート理解に対応
HTML構造解析
ウェブスクリーンショットのマスクを簡略化HTMLとして解析する革新的な事前学習手法で、視覚要素の理解を豊かにする

モデル能力

チャート画像理解
視覚QA
多言語テキスト生成
構造化データ抽出

使用事例

教育
教科書チャート解析
教科書中の複雑なチャートやデータ可視化コンテンツの理解を学生支援
チャートデータに関する様々な質問に正確に回答可能
ビジネスインテリジェンス
ビジネスレポート分析
ビジネスレポート中のチャートやデータ可視化を自動解析
重要なビジネス指標やトレンド情報を迅速に抽出
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase