DeTr-TableDetection-5000-imagesオープンソース表検出モデル - 表を高精度で識別し、無料で利用可能

ホーム

Detr TableDetection 5000 Images

illuinによって開発

facebook/detr-resnet-50をファインチューニングした表検出モデル、table_detection_lightデータセットで学習

物体検出

Transformers

オープンソースライセンス:Apache-2.0 #表検出 #ドキュメント分析 #軽量モデル

ダウンロード数 247

リリース時間 : 2/2/2023

モデル概要

このモデルは画像中の表領域を検出するために使用され、DETR（Detection Transformer）アーキテクチャに基づいて実装されています

モデル特徴

Transformerベースの物体検出

DETRアーキテクチャを採用し、従来の物体検出方法で必要だった複雑なアンカーボックス設計や非最大値抑制ステップを回避

軽量トレーニングデータ

わずか5000枚の画像でファインチューニングされており、リソースが限られたアプリケーションに適しています

エンドツーエンドトレーニング

複雑な後処理ステップなしで直接検出結果を出力

モデル能力

画像中の表検出

表領域の位置特定

使用事例

ドキュメント処理

PDFドキュメント分析

スキャンされたPDFドキュメントから表領域を検出

オフィス自動化

後続処理のためにドキュメント内の表位置を自動認識

🚀 DeTr-TableDetection-5000-images

このモデルは、table_detection_lightデータセットで[facebook/detr - resnet - 50](https://huggingface.co/facebook/detr - resnet - 50)をファインチューニングしたバージョンです。評価セットでは以下の結果を達成しています。

損失: 0.3184
平均IoU: 0.0234

🚀 クイックスタート

このモデルは、テーブル検出タスクに最適化されたDeTrベースのモデルです。特定のデータセットでファインチューニングされ、良好な性能を発揮します。

📚 ドキュメント

モデルの説明

詳細な情報は後日提供予定です。

想定される用途と制限

詳細な情報は後日提供予定です。

学習と評価データ

詳細な情報は後日提供予定です。

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 5e - 05
学習バッチサイズ: 16
評価バッチサイズ: 16
シード: 42
オプティマイザ: Adam (betas=(0.9, 0.999), epsilon = 1e - 08)
学習率スケジューラの種類: 線形
エポック数: 20

学習結果

学習損失	エポック	ステップ	検証損失	平均IoU
0.741	1.0	313	0.7054	0.0259
0.5559	2.0	626	0.5159	0.0231
0.4213	3.0	939	0.4154	0.0254
0.4374	4.0	1252	0.4072	0.0249
0.3884	5.0	1565	0.4454	0.0232
0.4057	6.0	1878	0.4251	0.0249
0.3511	7.0	2191	0.3882	0.0239
0.3463	8.0	2504	0.3766	0.0243
0.3346	9.0	2817	0.4142	0.0236
0.3183	10.0	3130	0.3804	0.0242
0.3049	11.0	3443	0.3642	0.0244
0.2942	12.0	3756	0.3541	0.0253
0.2836	13.0	4069	0.3359	0.0252
0.2738	14.0	4382	0.3338	0.0254
0.2629	15.0	4695	0.3318	0.0267
0.2591	16.0	5008	0.3311	0.0224
0.2457	17.0	5321	0.3317	0.0234
0.2406	18.0	5634	0.3219	0.0238
0.2383	19.0	5947	0.3143	0.0238
0.2229	20.0	6260	0.3184	0.0234