BROS-base-uncasedオープンソースモデル - ドキュメントから重要な情報を効率的に抽出する実用的なツール

ホーム

Bros Base Uncased

naver-clova-ocrによって開発

BROSは、テキストと版面レイアウトに特化した事前学習言語モデルで、文書から効率的に重要情報を抽出することを目的としています。

大規模言語モデル

Transformers

#文書の重要情報抽出 #OCRテキストレイアウト理解 #事前学習言語モデル

ダウンロード数 53.22k

リリース時間 : 3/2/2022

モデル概要

BROS（空間関係ベースのBERT）は、文書内のテキストと版面レイアウト情報を処理するために特別に設計された事前学習言語モデルです。OCR認識結果から、レシート内の順序付き項目リストなどの重要情報を抽出することができます。

モデル特徴

空間関係感知

モデルは文書内のテキストの空間レイアウト関係を理解し、情報抽出の精度を向上させます。

文書理解最適化

文書情報抽出タスクに特化して事前学習と最適化が行われています。

OCR結果処理

OCR認識結果（テキスト + バウンディングボックス）を直接入力として処理できます。

モデル能力

文書の重要情報抽出

版面レイアウト分析

レシート情報認識

表データ抽出

使用事例

文書処理

レシート情報抽出

スキャンしたレシートから商品項目、価格などの情報を自動的に抽出します。

構造化データ出力を生成できます。

表データ抽出

非構造化文書から表データを識別して抽出します。

元の表構造と内容関係を保持します。

ビジネス自動化

請求書処理

請求書文書を自動的に処理し、重要なビジネス情報を抽出します。

財務処理の効率を向上させます。

名称	パラメータ数	Hugging Face - モデル
bros-base-uncased (このモデル)	< 110M	naver-clova-ocr/bros-base-uncased
bros-large-uncased	< 340M	naver-clova-ocr/bros-large-uncased

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご

Bros Base Uncased

モデル概要

モデル特徴

モデル能力

使用事例

🚀 BROS

🚀 クイックスタート

✨ 主な機能

📚 ドキュメント

論文情報

事前学習モデル