🚀 ALBERT波斯語模型
ALBERT波斯語模型是針對波斯語進行自監督語言表徵學習的輕量級BERT模型。它能助力波斯語相關的自然語言處理任務,為波斯語的語義理解等工作提供有力支持。
ALBERT - 波斯語是首次針對波斯語開展的ALBERT模型嘗試。該模型基於谷歌的ALBERT BASE版本2.0進行訓練,訓練數據涵蓋了多種寫作風格、眾多主題(如科學、小說、新聞等)的超過390萬篇文檔、7300萬句話和13億個單詞,這與我們訓練ParsBERT的方式類似。
請關注ALBERT - 波斯語倉庫,以獲取有關過往和當前模型的最新信息。
✨ 主要特性
波斯語命名實體識別 [ARMAN, PEYMA]
此任務旨在從文本中提取命名實體,如人名等,並使用合適的NER
類別(如地點、組織等)進行標註。用於該任務的數據集包含以IOB
格式標註的句子。在這種格式中,不屬於實體的標記被標記為”O”
,”B”
標記對應對象的第一個單詞,”I”
標記對應同一實體的其餘單詞。”B”
和”I”
標記後面都跟著一個連字符(或下劃線),然後是實體類別。因此,命名實體識別任務是一個多類標記分類問題,在輸入原始文本時對標記進行標註。波斯語命名實體識別主要使用兩個數據集:ARMAN
和PEYMA
。
PEYMA
PEYMA數據集包含7145個句子,總共302530個標記,其中41148個標記被標記為七個不同的類別:
- 組織
- 貨幣
- 地點
- 日期
- 時間
- 人物
- 百分比
標籤 |
數量 |
組織 |
16964 |
貨幣 |
2037 |
地點 |
8782 |
日期 |
4259 |
時間 |
732 |
人物 |
7675 |
百分比 |
699 |
下載
你可以從[這裡](http://nsurl.org/tasks/task - 7 - named - entity - recognition - ner - for - farsi/)下載該數據集。
📚 詳細文檔
結果
以下表格總結了與其他模型和架構相比所獲得的F1分數:
數據集 |
ALBERT - fa - base - v2 |
ParsBERT - v1 |
mBERT |
MorphoBERT |
Beheshti - NER |
LSTM - CRF |
基於規則的CRF |
BiLSTM - CRF |
PEYMA |
88.99 |
93.10 |
86.64 |
- |
90.59 |
- |
84.00 |
- |
BibTeX引用和引用信息
請在出版物中按以下方式引用:
@misc{ALBERTPersian,
author = {Mehrdad Farahani},
title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
📄 許可證
本項目採用Apache 2.0許可證。
❓ 常見問題
如果你有任何問題,請在ALBERT - 波斯語倉庫中提交GitHub問題。