bert-base-parsbert-ner-uncasedオープンソースモデル - 無料でのデプロイでペルシャ語の命名エンティティ認識をサポート

ホーム

Bert Base Parsbert Ner Uncased

HooshvareLabによって開発

Transformerアーキテクチャに基づくペルシア語理解モデルで、ペルシア語の固有表現認識(NER)タスクに特化して最適化されています。

シーケンスラベリングその他オープンソースライセンス:Apache-2.0 #ペルシア語NER #全単語マスキングトレーニング #高精度のエンティティ認識

ダウンロード数 6,130

リリース時間 : 3/2/2022

モデル概要

ParsBERTはBERTアーキテクチャに基づく単言語ペルシア語モデルで、ARMANやPEYMAなどのペルシア語NERデータセットで優れた性能を発揮し、7種類のエンティティ認識をサポートしています。

モデル特徴

全単語マスキングトレーニング

全単語マスキング(Whole Word Masking)技術を採用して、ペルシア語のエンティティ認識の効果を向上させます。

2つのデータセットサポート

PEYMAとARMANの2つの主要なペルシア語NERベンチマークデータセットを同時にサポートします。

SOTA性能

PEYMAデータセットで98.79のF1スコアを達成し、他のペルシア語NERモデルを大幅に上回っています。

モデル能力

ペルシア語テキストのエンティティ認識

機関名検出

地理名認識

人名抽出

時間/日付認識

通貨/パーセンテージ検出

使用事例

情報抽出

ニューステキスト分析

ペルシア語のニュースから人名や組織などの重要なエンティティを自動的に抽出します。

ARMANデータセットで93.10のF1スコアを達成します。

ビジネスインテリジェンス

金融文書処理

ペルシア語の財務報告から通貨金額やパーセンテージデータを認識します。

PEYMAデータセットで通貨認識の正解率が90%を超えます。

🚀 ParsBERT: ペルシャ語理解のためのTransformerベースのモデル

ParsBERTは、GoogleのBERTアーキテクチャに基づく単言語モデルで、BERT-Baseと同じ設定を持っています。

ParsBERTを紹介する論文: arXiv:2005.12515

すべてのモデル（下流タスク）は小文字化されており、全単語マスキングで学習されています。（近日公開予定）

🚀 クイックスタート

ParsBERTは、GoogleのBERTアーキテクチャに基づく単言語モデルで、ペルシャ語の理解に特化しています。以下のセクションでは、ParsBERTの主な機能や使用方法、関連するデータセットについて説明します。

✨ 主な機能

ペルシャ語の固有表現抽出 (NER)

このタスクでは、テキスト内の固有表現（人名、組織名、場所など）を抽出し、適切なNERクラスでラベル付けします。ParsBERTでは、ARMANとPEYMAという2つの主要なデータセットを使用して、それぞれのデータセットおよびそれらの組み合わせに対するNERを用意しています。

📦 インストール

READMEにインストール手順が記載されていないため、このセクションは省略されました。

💻 使用例

基本的な使用法

READMEに具体的なコード例が記載されていないため、このセクションは省略されました。

📚 ドキュメント

ペルシャ語の固有表現抽出 (NER)

PEYMAデータセット

PEYMAデータセットは、合計302,530トークンを含む7,145文から構成されており、そのうち41,148トークンが7つの異なるクラスでタグ付けされています。

組織
金額
場所
日付
時間
人物
パーセント

ラベル	数
組織	16964
金額	2037
場所	8782
日付	4259
時間	732
人物	7675
パーセント	699

ダウンロード データセットはこちらからダウンロードできます。

ARMANデータセット

ARMANデータセットは、250,015トークンを含む7,682文が6つの異なるクラスでタグ付けされています。

組織
場所
施設
イベント
製品
人物

ラベル	数
組織	30108
場所	12924
施設	4458
イベント	7557
製品	4389
人物	15645

ダウンロード データセットはこちらからダウンロードできます。

結果

以下の表は、ParsBERTが他のモデルやアーキテクチャと比較して得たF1スコアをまとめたものです。

データセット	ParsBERT	MorphoBERT	Beheshti-NER	LSTM-CRF	Rule-Based CRF	BiLSTM-CRF
ARMAN + PEYMA	95.13*	-	-	-	-	-
PEYMA	98.79*	-	90.59	-	84.00	-
ARMAN	93.10*	89.9	84.03	86.55	-	77.45

使用方法

ノートブック	説明
パイプラインの使用方法	transformersを通じて下流タスクで最先端のモデルを簡単かつ効率的に使用する方法

🔧 技術詳細

READMEに具体的な技術詳細が記載されていないため、このセクションは省略されました。

📄 ライセンス

このプロジェクトはApache-2.0ライセンスの下で公開されています。

引用

あなたの研究でParsBERTを使用する場合は、以下の論文を引用してください。

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}