bert-base-parsbert-uncasedオープンソースペルシア語理解モデル - 無料でデプロイ可能、パフォーマンスはハイブリッドモデルを上回る

ホーム

Bert Base Parsbert Uncased

HooshvareLabによって開発

Transformerアーキテクチャに基づくペルシア語理解モデルで、マルチ言語BERTや他の混合モデルを上回る性能を持つ

大規模言語モデル #ペルシア語理解 #全単語マスキング訓練 #マルチタスクSOTA

ダウンロード数 99.81k

リリース時間 : 3/2/2022

モデル概要

ParsBERTはBERTアーキテクチャに基づく単一言語のペルシア語事前学習モデルで、感情分析、テキスト分類、固有表現認識などの下流タスクで優れた性能を発揮する

モデル特徴

ペルシア語最適化

ペルシア語の特性に合わせて特別に最適化されており、品詞タグ付けとWordPieceトークナイズ前処理を含む

全単語マスキング訓練

全単語マスキング(Whole Word Masking)技術を採用してモデルの理解能力を向上させる

大規模コーパス

200万以上の文書、4000万以上の文のペルシア語コーパスに基づいて訓練される

モデル能力

ペルシア語テキスト理解

感情分析

テキスト分類

固有表現認識

使用事例

感情分析

ユーザーレビューの感情分析

DigikalaやSnappFoodなどのプラットフォームのユーザーレビューの感情傾向を分析する

DigikalaデータセットでF1が81.74に達し、mBERTを上回る

テキスト分類

ニュース分類

ペルシア語ニュースを自動分類する

ペルシア語ニュースデータセットでF1が97.19に達する

固有表現認識

ペルシア語の固有表現認識

ペルシア語テキスト中の人名、地名などの固有表現を認識する

PEYMAデータセットでF1が93.10に達する

🚀 ParsBERT: ペルシャ語理解のためのTransformerベースのモデル

ParsBERTは、GoogleのBERTアーキテクチャに基づく単言語モデルで、BERT-Baseと同じ設定を持っています。

ParsBERTを紹介する論文: arXiv:2005.12515

すべてのモデル（下流タスク）は大文字小文字を区別せず、単語全体のマスキングで学習されています。（近日公開、お楽しみに）

🚀 クイックスタート

ParsBERTは、GoogleのBERTアーキテクチャに基づいたペルシャ語理解用の単言語モデルです。このモデルは、様々な書き方のペルシャ語コーパスで事前学習されており、複数の下流タスクで優れた性能を発揮します。

✨ 主な機能

大規模なペルシャ語コーパスで事前学習されている。
感情分析、テキスト分類、固有表現認識などの下流タスクで高い性能を発揮する。
既存のモデルやアーキテクチャと比較して、最先端の性能を達成している。

📦 インストール

本READMEにはインストール手順が記載されていないため、このセクションをスキップします。

💻 使用例

基本的な使用法

TensorFlow 2.0

from transformers import AutoConfig, AutoTokenizer, TFAutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")

text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد می‌توانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)

>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']

Pytorch

from transformers import AutoConfig, AutoTokenizer, AutoModel

config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")

📚 ドキュメント

導入

このモデルは、様々な主題（科学、小説、ニュースなど）の様々な書き方の大規模なペルシャ語コーパスで事前学習されています。このコーパスの大部分は手動でクロールされました。

ParsBERTの手法の一部として、品詞タグ付けとWordPieceセグメンテーションを組み合わせた大規模な前処理が行われ、コーパスを適切な形式に変換しました。このプロセスにより、4000万を超える正しい文が生成されます。

評価

ParsBERTは、感情分析（SA）、テキスト分類、固有表現認識（NER）の3つの自然言語処理下流タスクで評価されています。このため、資源が不足しているため、SA用の2つの大規模なデータセットとテキスト分類用の2つのデータセットが手動で作成され、公開されており、ベンチマークとして使用できます。ParsBERTは、すべてのタスクで、多言語BERTや他のハイブリッド深層学習モデルを含む他のすべての言語モデルを上回り、ペルシャ語モデリングにおける最先端の性能を向上させました。

結果

以下の表は、ParsBERTが他のモデルやアーキテクチャと比較して得たF1スコアをまとめたものです。

感情分析（SA）タスク

データセット	ParsBERT	mBERT	DeepSentiPers
Digikalaユーザーコメント	81.74*	80.74	-
SnappFoodユーザーコメント	88.12*	87.87	-
SentiPers（マルチクラス）	71.11*	-	69.33
SentiPers（バイナリクラス）	92.13*	-	91.98

テキスト分類（TC）タスク

データセット	ParsBERT	mBERT
Digikalaマガジン	93.59*	90.72
ペルシャニュース	97.19*	95.79

固有表現認識（NER）タスク

データセット	ParsBERT	mBERT	MorphoBERT	Beheshti-NER	LSTM-CRF	ルールベースのCRF	BiLSTM-CRF
PEYMA	93.10*	86.64	-	90.59	-	84.00	-
ARMAN	98.79*	95.89	89.9	84.03	86.55	-	77.45

もしあなたがParsBERTを公開データセットでテストし、上の表に結果を追加したい場合は、プルリクエストを開くか、私たちに連絡してください。また、コードをオンラインで公開していることを確認してください。そうすれば、参照として追加できます。

NLPタスクチュートリアル

近日公開、お楽しみに

引用

あなたの研究でParsBERTを使用している場合は、以下の論文をあなたの出版物で引用してください。

@article{ParsBERT,
    title={ParsBERT: Transformer-based Model for Persian Language Understanding},
    author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
    journal={ArXiv},
    year={2020},
    volume={abs/2005.12515}
}