P

Paligemma 3b Mix 448 Ft TableDetection

ucsahinによって開発
google/paligemma-3b-mix-448をファインチューニングしたマルチモーダル表検出モデルで、画像内の表領域を識別するために特化
ダウンロード数 19
リリース時間 : 5/25/2024

モデル概要

このモデルは画像とテキスト入力を組み合わせて画像内の表のバウンディングボックス座標を予測し、ドキュメント処理やデータ抽出などのシナリオに適しています

モデル特徴

マルチモーダル入力処理
画像とテキスト入力を同時に処理し、視覚と言語の統合理解を実現
高精度表検出
pubtables-detectionデータセットでファインチューニングされ、表領域識別能力を特別に最適化
標準化出力フォーマット
正規化された座標値を出力し、様々なバウンディングボックス形式への変換を容易に

モデル能力

画像内の表検出
バウンディングボックス座標予測
マルチモーダル理解

使用事例

ドキュメント処理
PDF表抽出
スキャン文書から表領域を自動的に特定
後続のOCR処理のために標準化された座標を出力
データ収集
ウェブスクリーンショット分析
スクリーンショット内の表構造を識別
データクローラーに位置情報を提供
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase