🚀 ALBERT波斯语模型
ALBERT波斯语模型是针对波斯语进行自监督语言表征学习的轻量级BERT模型。它能助力波斯语相关的自然语言处理任务,为波斯语的语义理解等工作提供有力支持。
ALBERT - 波斯语是首次针对波斯语开展的ALBERT模型尝试。该模型基于谷歌的ALBERT BASE版本2.0进行训练,训练数据涵盖了多种写作风格、众多主题(如科学、小说、新闻等)的超过390万篇文档、7300万句话和13亿个单词,这与我们训练ParsBERT的方式类似。
请关注ALBERT - 波斯语仓库,以获取有关过往和当前模型的最新信息。
✨ 主要特性
波斯语命名实体识别 [ARMAN, PEYMA]
此任务旨在从文本中提取命名实体,如人名等,并使用合适的NER
类别(如地点、组织等)进行标注。用于该任务的数据集包含以IOB
格式标注的句子。在这种格式中,不属于实体的标记被标记为”O”
,”B”
标记对应对象的第一个单词,”I”
标记对应同一实体的其余单词。”B”
和”I”
标记后面都跟着一个连字符(或下划线),然后是实体类别。因此,命名实体识别任务是一个多类标记分类问题,在输入原始文本时对标记进行标注。波斯语命名实体识别主要使用两个数据集:ARMAN
和PEYMA
。
PEYMA
PEYMA数据集包含7145个句子,总共302530个标记,其中41148个标记被标记为七个不同的类别:
- 组织
- 货币
- 地点
- 日期
- 时间
- 人物
- 百分比
标签 |
数量 |
组织 |
16964 |
货币 |
2037 |
地点 |
8782 |
日期 |
4259 |
时间 |
732 |
人物 |
7675 |
百分比 |
699 |
下载
你可以从[这里](http://nsurl.org/tasks/task - 7 - named - entity - recognition - ner - for - farsi/)下载该数据集。
📚 详细文档
结果
以下表格总结了与其他模型和架构相比所获得的F1分数:
数据集 |
ALBERT - fa - base - v2 |
ParsBERT - v1 |
mBERT |
MorphoBERT |
Beheshti - NER |
LSTM - CRF |
基于规则的CRF |
BiLSTM - CRF |
PEYMA |
88.99 |
93.10 |
86.64 |
- |
90.59 |
- |
84.00 |
- |
BibTeX引用和引用信息
请在出版物中按以下方式引用:
@misc{ALBERTPersian,
author = {Mehrdad Farahani},
title = {ALBERT-Persian: A Lite BERT for Self-supervised Learning of Language Representations for the Persian Language},
year = {2020},
publisher = {GitHub},
journal = {GitHub repository},
howpublished = {\url{https://github.com/m3hrdadfi/albert-persian}},
}
@article{ParsBERT,
title={ParsBERT: Transformer-based Model for Persian Language Understanding},
author={Mehrdad Farahani, Mohammad Gharachorloo, Marzieh Farahani, Mohammad Manthouri},
journal={ArXiv},
year={2020},
volume={abs/2005.12515}
}
📄 许可证
本项目采用Apache 2.0许可证。
❓ 常见问题
如果你有任何问题,请在ALBERT - 波斯语仓库中提交GitHub问题。