G

Granite Vision 3.2 2b

Developed by unsloth
granite-vision-3.2-2bは、視覚的文書理解のために設計されたコンパクトで効率的な視覚言語モデルで、表、チャート、インフォグラフィックなどから自動的に内容を抽出できます。
Downloads 43
Release Time : 3/14/2025

Model Overview

このモデルは、注意深く選ばれた指示追従データセットでトレーニングされており、多様な公開データセットと、広範な文書理解および一般的な画像タスク向けにカスタマイズされた合成データセットを含んでいます。Granite大規模言語モデルを画像とテキストのモダリティで微調整することでトレーニングされました。

Model Features

効率的な視覚的文書理解
表、チャート、インフォグラフィック、図面、概略図などから自動的に内容を抽出可能
マルチモーダル能力
視覚とテキストデータを同時に処理し、幅広いビジネスシナリオに適用可能
高性能
複数の文書理解ベンチマークで同類のモデルを上回るパフォーマンス
軽量設計
わずか2Bパラメータで、効率を保ちながら強力な性能を提供

Model Capabilities

表分析
チャート理解
インフォグラフィック解析
光学文字認識(OCR)
文書内容質問応答
一般的な画像理解
視覚的質問応答

Use Cases

文書処理
文書質問応答
文書内容に基づいて質問に回答
DocVQAベンチマークで0.89の精度を達成
チャート分析
チャートからデータを抽出して分析
ChartQAベンチマークで0.87の精度を達成
一般的な視覚理解
視覚的質問応答
画像内容に関する質問に回答
VQAv2ベンチマークで0.78の精度を達成
現実世界のシーン理解
現実世界の画像内容を理解
RealWorldQAベンチマークで0.63の精度を達成
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase