VisualHeist-largeオープンソース目標検出モデル - PDFからグラフ、表、ヘッダーとフッターなどを無料で抽出

Home

Visualheist Large

Developed by shixuanleong

VisualHeistは、PDFファイルからグラフ、模式図、表を抽出するための物体検出モデルで、タイトル、ヘッダー、フッターも含みます。

物体検出

PyTorch

Open Source License:MIT #PDFグラフ抽出 #科研文献処理 #多バージョン対応

Downloads 1,693

Release Time : 10/28/2024

Model Overview

VisualHeistは物体検出モデルを微調整することで、PDF文書内のグラフと表を正確に識別し分割し、文書処理の自動化レベルと作業効率を向上させます。

Model Features

多バージョン選択

基本版と大型版の2種類のモデル規模を提供し、異なるハードウェア構成の要件に対応します。

高品質の学習データ

3435枚のグラフと1716個の表を使用して微調整し、すべてのデータは手動でアノテーション付けされています。

幅広い適用性

化学、材料科学、生物学などの様々な学問分野の文献で良好な性能を発揮します。

Model Capabilities

PDF文書解析

グラフ検出

表検出

模式図検出

学術文献処理

Use Cases

学術研究

文献データ抽出

科研論文から自動的にグラフと表のデータを抽出する

F1スコアが93%（全体）

文書処理

PDF内容の構造化

PDF文書内の視覚要素を自動的に分類し抽出する

補足資料で92%のF1スコアを達成

🚀 VisualHeist - PDFからのグラフ、模式図、表の分割（タイトル、ヘッダー、フッターを含む）

VisualHeistは、PDFから表とグラフを抽出するために微調整された物体検出モデルです。このモデルは、PDFファイルから表やグラフを正確に抽出するという難題を解決し、手動での処理を不要にし、作業効率を向上させます。

🚀 クイックスタート

このモデルを実行する方法については、githubリポジトリの詳細な説明を参照してください。

✨ 主な機能

複数のバージョン選択：VisualHeistには2つのバージョンがあり、visualheist-base（0.23B）とvisualheist-large（0.77B）です。低メモリのシステムで実行する場合は、ベースバージョンの使用をおすすめします。
微調整の基礎：このモデルは、microsoft/Florence - 2のチェックポイントを基に微調整されており、yifeihu/TF - IDからインスピレーションを得て改変されています。
データソース：110の異なる出版社のPDF論文から取得した3435枚のグラフと1716個の表を使用して微調整されており、すべてのバウンディングボックスはCoCo Annotatorを使用して手動でアノテーションされています。
入力と出力：TF - IDモデルは、単一ページの論文の画像を入力とし、与えられたページ内のすべてのグラフ、模式図、表の画像ファイルを返します。

📚 ドキュメント

学習コードとデータセット

データセット：Zenodoリポジトリ
コード：github.com/aspuru - guzik - group/MERMaid

ベンチマークテスト

評価データセット：有機および無機化学、大気科学、電池、材料科学、金属有機フレームワーク（MOFs）、生物学、科学教育など、複数の主題をカバーする121篇の文献論文を含む多様な評価データセットを手動で整理しました。これらのPDF論文は1949年から2025年までの期間に発行されたもので、主論文と補足資料が含まれています。さらに、有機電合成、光触媒、有機合成という3つの異なる化学分野をカバーする、新しい反応方法を報告する98篇の文献論文（MERMaid - 100）も整理しました。
評価結果：visualheist - largeの評価結果は以下の通りです。 | カテゴリ | 総画像数 | F1スコア | |------|----------|--------| | 全て | 1935 | 93% | | 主論文 | 423 | 96% | | 2000年以前 | 260 | 93% | | 補足資料 | 1252 | 92% | | MERMaid - 100 | 100 | 99% |

より詳細な性能に関する議論はプレプリント論文を参照してください。完全なDOIリストはZenodoリポジトリからダウンロードできます。

📄 ライセンス

このプロジェクトはMITライセンスの下で提供されています。

📖 BibTexと引用情報

<To be updated with our archive citation>

Featured Recommended AI Models

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

大規模言語モデル

Transformers Supports Multiple Languages

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム Chinese

uer

2,694

Empowering the Future, Your AI Solution Knowledge Base

English 简体中文繁體中文にほんご