P

Pix2struct Ai2d Base

googleによって開発
Pix2Structは視覚言語理解モデルで、科学図表の視覚的質問応答(VQA)タスクに特化してファインチューニングされています
ダウンロード数 1,575
リリース時間 : 3/14/2023

モデル概要

このモデルはPix2Structアーキテクチャに基づく視覚的質問応答モデルで、AI2D科学図表データセットでファインチューニングされており、科学図表を理解し関連する質問に回答できます。特に選択式の質問シナリオに適しています。

モデル特徴

科学図表理解
科学図表に特化して最適化されており、図表中の視覚要素やラベルを正確に解析できます
選択式質問応答
選択式の視覚的質問応答タスクに特に適しており、与えられた選択肢から正しい答えを正確に選べます
多言語対応
英語、フランス語、ルーマニア語、ドイツ語など複数言語の質問応答をサポートしています

モデル能力

科学図表解析
視覚的質問応答
多言語理解
選択式回答選択

使用事例

教育
科学教材補助学習
学生が科学教材中の図表内容を理解し、関連質問に回答するのを支援
学生の科学概念と図表情報の理解力を向上
研究
科学文献分析
研究論文の図表情報を自動解析し、キーデータを抽出
文献レビューとデータ分析プロセスを加速
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase