🚀 ParsBERT: ペルシャ語理解のためのTransformerベースのモデル
ParsBERTは、GoogleのBERTアーキテクチャに基づく単言語モデルで、BERT-Baseと同じ設定を持っています。
ParsBERTを紹介する論文: arXiv:2005.12515
すべてのモデル(下流タスク)は大文字小文字を区別せず、単語全体のマスキングで学習されています。(近日公開、お楽しみに)
🚀 クイックスタート
ParsBERTは、GoogleのBERTアーキテクチャに基づいたペルシャ語理解用の単言語モデルです。このモデルは、様々な書き方のペルシャ語コーパスで事前学習されており、複数の下流タスクで優れた性能を発揮します。
✨ 主な機能
- 大規模なペルシャ語コーパスで事前学習されている。
- 感情分析、テキスト分類、固有表現認識などの下流タスクで高い性能を発揮する。
- 既存のモデルやアーキテクチャと比較して、最先端の性能を達成している。
📦 インストール
本READMEにはインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['ما', 'در', 'هوش', '##واره', 'معتقدیم', 'با', 'انتقال', 'صحیح', 'دانش', 'و', 'اگاهی', '،', 'همه', 'افراد', 'میتوانند', 'از', 'ابزارهای', 'هوشمند', 'استفاده', 'کنند', '.', 'شعار', 'ما', 'هوش', 'مصنوعی', 'برای', 'همه', 'است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
tokenizer = AutoTokenizer.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
model = AutoModel.from_pretrained("HooshvareLab/bert-base-parsbert-uncased")
📚 ドキュメント
導入
このモデルは、様々な主題(科学、小説、ニュースなど)の様々な書き方の大規模なペルシャ語コーパスで事前学習されています。このコーパスの大部分は手動でクロールされました。
ParsBERTの手法の一部として、品詞タグ付けとWordPieceセグメンテーションを組み合わせた大規模な前処理が行われ、コーパスを適切な形式に変換しました。このプロセスにより、4000万を超える正しい文が生成されます。
評価
ParsBERTは、感情分析(SA)、テキスト分類、固有表現認識(NER)の3つの自然言語処理下流タスクで評価されています。このため、資源が不足しているため、SA用の2つの大規模なデータセットとテキスト分類用の2つのデータセットが手動で作成され、公開されており、ベンチマークとして使用できます。ParsBERTは、すべてのタスクで、多言語BERTや他のハイブリッド深層学習モデルを含む他のすべての言語モデルを上回り、ペルシャ語モデリングにおける最先端の性能を向上させました。
結果
以下の表は、ParsBERTが他のモデルやアーキテクチャと比較して得たF1スコアをまとめたものです。
感情分析(SA)タスク
データセット |
ParsBERT |
mBERT |
DeepSentiPers |
Digikalaユーザーコメント |
81.74* |
80.74 |
- |
SnappFoodユーザーコメント |
88.12* |
87.87 |
- |
SentiPers(マルチクラス) |
71.11* |
- |
69.33 |
SentiPers(バイナリクラス) |
92.13* |
- |
91.98 |
テキスト分類(TC)タスク
データセット |
ParsBERT |
mBERT |
Digikalaマガジン |
93.59* |
90.72 |
ペルシャニュース |
97.19* |
95.79 |
固有表現認識(NER)タスク
データセット |
ParsBERT |
mBERT |
MorphoBERT |
Beheshti-NER |
LSTM-CRF |
ルールベースのCRF |
BiLSTM-CRF |
PEYMA |
93.10* |
86.64 |
- |
90.59 |
- |
84.00 |
- |
ARMAN |
98.79* |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
もしあなたがParsBERTを公開データセットでテストし、上の表に結果を追加したい場合は、プルリクエストを開くか、私たちに連絡してください。また、コードをオンラインで公開していることを確認してください。そうすれば、参照として追加できます。
NLPタスクチュートリアル
近日公開、お楽しみに
引用
あなたの研究でParsBERTを使用している場合は、以下の論文をあなたの出版物で引用してください。
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
🔧 技術詳細
本READMEには技術的な詳細説明が十分に記載されていないため、このセクションをスキップします。
📄 ライセンス
本READMEにはライセンス情報が記載されていないため、このセクションをスキップします。
謝辞
私たちは、必要な計算資源を提供してくれたTensorflow Research Cloud (TFRC)プログラムに感謝の意を表します。また、データセットの収集やオンラインテキストリソースのスクレイピングを支援してくれたHooshvare研究グループにも感謝します。
貢献者
- Mehrdad Farahani: Linkedin, Twitter, Github
- Mohammad Gharachorloo: Linkedin, Twitter, Github
- Marzieh Farahani: Linkedin, Twitter, Github
- Mohammad Manthouri: Linkedin, Twitter, Github
- Hooshvareチーム: 公式ウェブサイト, Linkedin, Twitter, Github, Instagram
リリース
リリースv0.1 (2019年5月27日)
これは、BERTBASEに基づくParsBERTの最初のバージョンです。