🚀 TookaBERT模型
TookaBERT模型是一系列基于波斯语训练的编码器模型,有基础和大型两种规格。这些模型在超过500GB的波斯语数据上进行预训练,数据涵盖新闻、博客、论坛、书籍等多种主题。它们使用两种上下文长度,以MLM(WWM)为目标进行预训练。
🚀 快速开始
你可以使用下面提供的代码,直接将此模型用于掩码语言建模任务。
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Base")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Base")
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
也可以使用如下的推理管道:
from transformers import pipeline
inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Base")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")
你还可以使用该模型在自己的数据集上进行微调,以适配特定任务。
✨ 主要特性
TookaBERT模型是一系列针对波斯语训练的编码器模型,有基础和大型两种规格。这些模型在超过500GB的波斯语数据上进行预训练,数据来源广泛,包括新闻、博客、论坛、书籍等。它们采用两种上下文长度,并以MLM(WWM)为目标进行预训练。
📚 详细文档
如需更多信息,你可以阅读我们发表在 arXiv 上的论文。
🔧 技术细节
TookaBERT模型在多种NLP下游任务上进行了评估,包括情感分析(SA)、文本分类、多项选择、问答和命名实体识别(NER)等。以下是一些关键的性能结果:
模型名称 |
DeepSentiPers(f1/acc) |
MultiCoNER - v2(f1/acc) |
PQuAD(best_exact/best_f1/HasAns_exact/HasAns_f1) |
FarsTail(f1/acc) |
ParsiNLU - 多项选择(f1/acc) |
ParsiNLU - 阅读理解(exact/f1) |
ParsiNLU - QQP(f1/acc) |
TookaBERT - large |
85.66/85.78 |
69.69/94.07 |
75.56/88.06/70.24/87.83 |
89.71/89.72 |
36.13/35.97 |
33.6/60.5 |
82.72/82.63 |
TookaBERT - base |
83.93/83.93 |
66.23/93.3 |
73.18/85.71/68.29/85.94 |
83.26/83.41 |
33.6/33.81 |
20.8/42.52 |
81.33/81.29 |
Shiraz |
81.17/81.08 |
59.1/92.83 |
65.96/81.25/59.63/81.31 |
77.76/77.75 |
34.73/34.53 |
17.6/39.61 |
79.68/79.51 |
ParsBERT |
80.22/80.23 |
64.91/93.23 |
71.41/84.21/66.29/84.57 |
80.89/80.94 |
35.34/35.25 |
20/39.58 |
80.15/80.07 |
XLM - V - base |
83.43/83.36 |
58.83/92.23 |
73.26/85.69/68.21/85.56 |
81.1/81.2 |
35.28/35.25 |
8/26.66 |
80.1/79.96 |
XLM - RoBERTa - base |
83.99/84.07 |
60.38/92.49 |
73.72/86.24/68.16/85.8 |
82.0/81.98 |
32.4/32.37 |
20.0/40.43 |
79.14/78.95 |
FaBERT |
82.68/82.65 |
63.89/93.01 |
72.57/85.39/67.16/85.31 |
83.69/83.67 |
32.47/32.37 |
27.2/48.42 |
82.34/82.29 |
mBERT |
78.57/78.66 |
60.31/92.54 |
71.79/84.68/65.89/83.99 |
82.69/82.82 |
33.41/33.09 |
27.2/42.18 |
79.19/79.29 |
AriaBERT |
80.51/80.51 |
60.98/92.45 |
68.09/81.23/62.12/80.94 |
74.47/74.43 |
30.75/30.94 |
14.4/35.48 |
79.09/78.84 |
*注意:由于微调过程中的随机性,差异小于1%的结果视为相同。
📄 许可证
本项目采用Apache - 2.0许可证。
💬 联系我们
如果你对该模型有任何疑问,可以通过Hugging Face上的社区与我们取得联系。