🚀 ALBERT-Persian
このモデルは、ペルシャ語の言語表現を自己教師付き学習するための軽量BERTモデルです。ペルシャ語の自然言語処理タスクに役立ちます。
🚀 クイックスタート
ALBERT-Persianは、大量の公開コーパス(Persian Wikidumps、MirasText)と、様々なウェブサイトから手動で収集した6種類のテキストデータ(BigBang Page 科学系
、Chetor ライフスタイル
、Eligasht 旅行行程
、 Digikala デジタルマガジン
、Ted Talks 一般会話
、書籍 古から現代までの小説、物語、短編小説
)を使って学習されました。
最新のモデル情報については、ALBERT-Persian リポジトリをご覧ください。
✨ 主な機能
このモデルは、マスク言語モデリングや次文予測に使用できますが、主に下流タスクでのファインチューニングを目的としています。興味のあるタスクでファインチューニングされたバージョンは、モデルハブ を参照してください。
📦 インストール
- 任意のタイプのAlbertを使用するには、sentencepieceをインストールする必要があります。
- ノートブックで以下のコマンドを実行します。
!pip install -q sentencepiece
💻 使用例
基本的な使用法
TensorFlow 2.0
from transformers import AutoConfig, AutoTokenizer, TFAutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = TFAutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
text = "ما در هوشواره معتقدیم با انتقال صحیح دانش و آگاهی، همه افراد میتوانند از ابزارهای هوشمند استفاده کنند. شعار ما هوش مصنوعی برای همه است."
tokenizer.tokenize(text)
>>> ['▁ما', '▁در', '▁هوش', 'واره', '▁معتقد', 'یم', '▁با', '▁انتقال', '▁صحیح', '▁دانش', '▁و', '▁اگاه', 'ی', '،', '▁همه', '▁افراد', '▁می', '▁توانند', '▁از', '▁ابزارهای', '▁هوشمند', '▁استفاده', '▁کنند', '.', '▁شعار', '▁ما', '▁هوش', '▁مصنوعی', '▁برای', '▁همه', '▁است', '.']
Pytorch
from transformers import AutoConfig, AutoTokenizer, AutoModel
config = AutoConfig.from_pretrained("m3hrdadfi/albert-fa-base-v2")
tokenizer = AutoTokenizer.from_pretrained("m3hrdadfi/albert-fa-base-v2")
model = AutoModel.from_pretrained("m3hrdadfi/albert-fa-base-v2")
🔧 技術詳細
ALBERT-Persianは、ペルシャ語向けのALBERTの最初の試みです。このモデルは、GoogleのALBERT BASE Version 2.0に基づいて、様々な書き方のスタイル(科学、小説、ニュースなど)の390万
以上の文書、7300万
の文、13億
の単語を使って学習されました。詳細は ParsBERT を参照してください。
学習中の目標は以下の通りです(140,000ステップ後)。
***** Eval results *****
global_step = 140000
loss = 2.0080082
masked_lm_accuracy = 0.6141017
masked_lm_loss = 1.9963315
sentence_order_accuracy = 0.985
sentence_order_loss = 0.06908702
📚 ドキュメント
派生モデル
基本設定
Albertモデル
Albert感情分析
Albertテキスト分類
Albert固有表現抽出
評価結果
以下の表は、ALBERT-Persianが他のモデルやアーキテクチャと比較して得たF1スコアをまとめたものです。
感情分析(SA)タスク
データセット |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
DeepSentiPers |
Digikalaユーザーコメント |
81.12 |
81.74 |
80.74 |
- |
SnappFoodユーザーコメント |
85.79 |
88.12 |
87.87 |
- |
SentiPers(マルチクラス) |
66.12 |
71.11 |
- |
69.33 |
SentiPers(バイナリクラス) |
91.09 |
92.13 |
- |
91.98 |
テキスト分類(TC)タスク
データセット |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
Digikalaマガジン |
92.33 |
93.59 |
90.72 |
ペルシャニュース |
97.01 |
97.19 |
95.79 |
固有表現抽出(NER)タスク
データセット |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
MorphoBERT |
Beheshti-NER |
LSTM-CRF |
Rule-Based CRF |
BiLSTM-CRF |
PEYMA |
88.99 |
93.10 |
86.64 |
- |
90.59 |
- |
84.00 |
- |
ARMAN |
97.43 |
98.79 |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
BibTeXエントリと引用情報
出版物では、以下のように引用してください。
@misc{ALBERT-Persian,
author = {Mehrdad Farahani},
title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
📄 ライセンス
このプロジェクトは、Apache-2.0ライセンスの下で公開されています。
質問はこちら
ALBERT-Persian リポジトリにGitHubのissueを投稿してください。