G

Granite Vision 3.2 2b

unslothによって開発
granite-vision-3.2-2bは、視覚的文書理解のために設計されたコンパクトで効率的な視覚言語モデルで、表、チャート、インフォグラフィックなどから自動的に内容を抽出できます。
ダウンロード数 43
リリース時間 : 3/14/2025

モデル概要

このモデルは、注意深く選ばれた指示追従データセットでトレーニングされており、多様な公開データセットと、広範な文書理解および一般的な画像タスク向けにカスタマイズされた合成データセットを含んでいます。Granite大規模言語モデルを画像とテキストのモダリティで微調整することでトレーニングされました。

モデル特徴

効率的な視覚的文書理解
表、チャート、インフォグラフィック、図面、概略図などから自動的に内容を抽出可能
マルチモーダル能力
視覚とテキストデータを同時に処理し、幅広いビジネスシナリオに適用可能
高性能
複数の文書理解ベンチマークで同類のモデルを上回るパフォーマンス
軽量設計
わずか2Bパラメータで、効率を保ちながら強力な性能を提供

モデル能力

表分析
チャート理解
インフォグラフィック解析
光学文字認識(OCR)
文書内容質問応答
一般的な画像理解
視覚的質問応答

使用事例

文書処理
文書質問応答
文書内容に基づいて質問に回答
DocVQAベンチマークで0.89の精度を達成
チャート分析
チャートからデータを抽出して分析
ChartQAベンチマークで0.87の精度を達成
一般的な視覚理解
視覚的質問応答
画像内容に関する質問に回答
VQAv2ベンチマークで0.78の精度を達成
現実世界のシーン理解
現実世界の画像内容を理解
RealWorldQAベンチマークで0.63の精度を達成
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase