🚀 ALBERT Persian
Persian語向けの自己教師付き学習による言語表現学習のための軽量BERTモデルです。
ALBERT-Persian は、Persian語向けのALBERTモデルの最初の試みです。このモデルは、GoogleのALBERT BASE Version 2.0に基づいて、様々な主題(科学、小説、ニュースなど)の様々な文体の390万を超える文書、7300万の文、13億の単語で学習されています。これは、ParsBERTの場合と同じ方法で行われています。
最新のモデル情報については、ALBERT-Persian のリポジトリをご覧ください。
🚀 クイックスタート
このセクションでは、ALBERT Persianモデルの概要と使用方法について説明します。
✨ 主な機能
- Persian語向けのALBERTモデルの最初の試みです。
- 様々な主題の390万を超える文書、7300万の文、13億の単語で学習されています。
- 固有表現抽出(NER)タスクでの優れた性能を発揮します。
📦 インストール
READMEには具体的なインストール手順が記載されていないため、このセクションは省略します。
💻 使用例
READMEには具体的なコード例が記載されていないため、このセクションは省略します。
📚 ドキュメント
Persian NER [ARMAN, PEYMA]
このタスクは、テキスト内の固有表現(名前など)を抽出し、場所や組織などの適切な NER
クラスでラベル付けすることを目的としています。このタスクに使用されるデータセットには、IOB
形式でマークされた文が含まれています。この形式では、エンティティの一部ではないトークンは ”O”
とタグ付けされ、”B”
タグはオブジェクトの最初の単語に対応し、”I”
タグは同じエンティティの残りの用語に対応します。”B”
と ”I”
の両方のタグの後にはハイフン(またはアンダースコア)が続き、その後にエンティティのカテゴリが続きます。したがって、NERタスクは、生のテキストを入力としてトークンにラベル付けする多クラストークン分類問題です。Persian NERで使用される主なデータセットには、ARMAN
と PEYMA
の2つがあります。
ARMAN
ARMANデータセットには、6つの異なるクラスに分類された250,015の文が含まれる7,682の文が含まれています。
- 組織
- 場所
- 施設
- イベント
- 製品
- 人物
ラベル |
数 |
組織 |
30108 |
場所 |
12924 |
施設 |
4458 |
イベント |
7557 |
製品 |
4389 |
人物 |
15645 |
ダウンロード
データセットは こちら からダウンロードできます。
結果
以下の表は、他のモデルやアーキテクチャと比較して得られたF1スコアをまとめたものです。
データセット |
ALBERT-fa-base-v2 |
ParsBERT-v1 |
mBERT |
MorphoBERT |
Beheshti-NER |
LSTM-CRF |
Rule-Based CRF |
BiLSTM-CRF |
ARMAN |
97.43 |
98.79 |
95.89 |
89.9 |
84.03 |
86.55 |
- |
77.45 |
BibTeXエントリと引用情報
出版物では、次のように引用してください。
@misc{ALBERTPersian,
author = {Mehrdad Farahani},
title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
🔧 技術詳細
READMEには具体的な技術詳細が記載されていないため、このセクションは省略します。
📄 ライセンス
このプロジェクトは、Apache License 2.0の下でライセンスされています。
質問はこちら
ALBERT-Persian リポジトリにGitHubのissueを投稿してください。