🚀 YOLOv8s テーブル検出モデル
このYOLOv8sテーブル検出モデルは、YOLO(You Only Look Once)フレームワークに基づく物体検出モデルです。画像内の境界付きまたは境界なしのテーブルを検出することができ、大規模なデータセットでファインチューニングされており、高い精度を達成しています。
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
インストール
pip install ultralyticsplus==0.0.28 ultralytics==8.0.43
モデルのロードと予測の実行
from ultralyticsplus import YOLO, render_result
model = YOLO('foduucom/table-detection-and-extraction')
model.overrides['conf'] = 0.25
model.overrides['iou'] = 0.45
model.overrides['agnostic_nms'] = False
model.overrides['max_det'] = 1000
image = '/path/to/your/document/images'
results = model.predict(image)
print(results[0].boxes)
render = render_result(model=model, image=image, result=results[0])
render.show()
✨ 主な機能
- 画像内の境界付きまたは境界なしのテーブルを高精度に検出します。
- 光学文字認識(OCR)技術との統合により、テーブル内のデータを抽出することができます。
- 非構造化文書の解析に役立ち、テーブルの検出とデータ抽出を効率化します。
📚 ドキュメント
モデルの詳細
モデルの説明
YOLOv8sテーブル検出モデルは、画像内のテーブルを正確に識別するための汎用的なソリューションです。境界付きまたは境界なしのテーブルを検出するだけでなく、非構造化文書の複雑さに対応することができます。バウンディングボックスの描画などの高度な技術を使用して、ユーザーは視覚コンテンツ内の関心のあるテーブルを分離することができます。
このモデルの特長は、光学文字認識(OCR)技術とのシームレスな統合です。これにより、モデルはテーブルを検出するだけでなく、テーブル内に含まれる関連データを抽出することができます。バウンディングボックスの情報を使用してテーブルを切り抜き、OCRと組み合わせてテキストデータを精密に抽出することで、非構造化文書からの情報検索プロセスを合理化します。
- 開発者: FODUU AI
- モデルの種類: 物体検出
- タスク: テーブル検出(境界付きおよび境界なし)
サポートされるラベル
['bordered', 'borderless']
用途
直接的な使用
このモデルは、画像内の境界付きまたは境界なしのテーブルを検出するために直接使用することができます。また、これらの2つのカテゴリを区別する能力も備えています。
下流の使用
このモデルは、特定のテーブル検出タスクのためにファインチューニングすることもできますし、家具認識、インテリアデザイン、画像ベースのデータ抽出などの大規模なアプリケーションに統合することもできます。
範囲外の使用
このモデルは、テーブル検出の範囲外の無関係な物体検出タスクやシナリオには設計されていません。
バイアス、リスク、および制限
このモデルにはいくつかの制限とバイアスがある可能性があります。
- パフォーマンスは、トレーニングデータの品質、多様性、および代表性によって異なる場合があります。
- 複雑なデザインや配置のテーブルの検出には困難を伴う場合があります。
- 照明条件、画像品質、および解像度の変動によって精度が影響を受ける可能性があります。
- 非常に小さいまたは遠くのテーブルの検出精度は低くなる可能性があります。
- 境界付きと境界なしのテーブルの分類能力は、デザインの変動によって影響を受ける可能性があります。
推奨事項
ユーザーは、このモデルの制限と潜在的なバイアスについて十分に理解する必要があります。特定の使用ケースについては、さらなるテストと検証を行い、パフォーマンスを正確に評価することをお勧めします。
🔧 技術詳細
トレーニングデータ
このモデルは、さまざまなソースから収集されたテーブルの画像を含む多様なデータセットでトレーニングされています。データセットには、境界付きと境界なしの両方のテーブルの例が含まれており、さまざまなデザインやスタイルをカバーしています。
トレーニング手順
トレーニングプロセスには大量の計算が必要であり、複数のエポックにわたって行われます。モデルの重みは、検出損失を最小化し、パフォーマンスを最適化するために調整されます。
評価指標
- mAP@0.5 (box):
- 全体: 0.962
- 境界付き: 0.961
- 境界なし: 0.963
モデルアーキテクチャと目的
YOLOv8sアーキテクチャは、修正されたCSPDarknet53をバックボーンとして使用し、自己注意機構と特徴ピラミッドネットワークを備えています。これらのコンポーネントは、サイズ、デザイン、およびスタイルの変動を考慮して、テーブルを正確に検出および分類するモデルの能力に貢献しています。
コンピュートインフラストラクチャ
ハードウェア
NVIDIA GeForce RTX 3060カード
ソフトウェア
このモデルは、Jupyter Notebook環境を使用してトレーニングおよびファインチューニングされました。
📄 ライセンス
詳細なライセンス情報は提供されていません。
モデルカードの問い合わせ
質問や貢献については、info@foduu.comまでお問い合わせください。
@ModelCard{
author = {Nehul Agrawal and
Pranjal Singh Thakur},
title = {YOLOv8s Table Detection},
year = {2023}
}