D

Dit Base Layout Detection

cmarkeaによって開発
microsoft/dit-baseをファインチューニングしたドキュメント画像レイアウト検出モデル、11種類のドキュメント要素を識別可能
ダウンロード数 704
リリース時間 : 7/18/2024

モデル概要

このモデルはドキュメント画像からテキスト、画像、見出し、脚注などの異なるレイアウト要素を抽出でき、特にオープンドメイン質問応答システム(ODQA)にインポートする必要があるドキュメントセットの処理に適しています。

モデル特徴

マルチカテゴリードキュメント要素認識
画像キャプション、脚注、数式、リスト項目、ヘッダー/フッターなど11種類のドキュメント要素を識別可能
DocLayNetでファインチューニング
DocLayNetデータセットでファインチューニングされ、ドキュメントレイアウト分析タスクに特化して最適化
二重評価指標
セマンティックセグメンテーションと物体検出の両方の評価方法をサポートし、包括的な性能評価を提供

モデル能力

ドキュメント画像分析
レイアウト要素認識
セマンティックセグメンテーション
物体検出

使用事例

ドキュメント処理
オープンドメインQAシステムのドキュメント前処理
ODQAシステム用にドキュメントを準備する際、ドキュメント内の異なる要素を自動識別・分類
ドキュメントの構造化レベルを向上させ、QAシステムの理解能力を強化
ドキュメントデジタル化
スキャンしたドキュメントを構造化されたデジタル形式に変換する際、各領域タイプを自動識別
ドキュメントデジタル化の効率と精度を向上
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase