🚀 TookaBERT模型
TookaBERT是一系列基于波斯语训练的编码器模型,有基础版和大模型版两种规格。该模型在超过500GB的波斯语数据上进行预训练,数据涵盖新闻、博客、论坛、书籍等多种主题。它们采用MLM(WWM)目标函数,在两种上下文长度下进行预训练。TookaBERT-Large是首个基于波斯语预训练的大型编码器模型,目前在波斯语任务中处于领先水平。
如需了解更多信息,可阅读我们发表在arXiv上的论文。
🚀 快速开始
✨ 主要特性
- TookaBERT模型有基础版和大模型版两种规格。
- 在超500GB的波斯语数据上进行预训练,数据主题丰富。
- 采用MLM(WWM)目标函数,在两种上下文长度下预训练。
- TookaBERT-Large是首个基于波斯语预训练的大型编码器模型,在波斯语任务中表现出色。
📦 安装指南
文档未提及安装步骤,此章节跳过。
💻 使用示例
基础用法
你可以使用以下代码直接进行掩码语言建模:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Large")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Large")
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高级用法
也可以使用推理管道,示例如下:
from transformers import pipeline
inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Large")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")
你还可以使用该模型在自己的数据集上进行微调,以适应特定任务,如:
- DeepSentiPers(情感分析)

- ParsiNLU - Multiple-choice(多项选择)

📚 详细文档
TookaBERT模型在一系列NLP下游任务中进行了评估,包括情感分析(SA)、文本分类、多项选择、问答和命名实体识别(NER)。以下是一些关键性能结果:
属性 |
详情 |
模型类型 |
TookaBERT-large、TookaBERT-base等 |
训练数据 |
超过500GB的波斯语数据,涵盖新闻、博客、论坛、书籍等多种主题 |
模型名称 |
DeepSentiPers (f1/acc) |
MultiCoNER-v2 (f1/acc) |
PQuAD (best_exact/best_f1/HasAns_exact/HasAns_f1) |
FarsTail (f1/acc) |
ParsiNLU-Multiple-choice (f1/acc) |
ParsiNLU-Reading-comprehension (exact/f1) |
ParsiNLU-QQP (f1/acc) |
TookaBERT-large |
85.66/85.78 |
69.69/94.07 |
75.56/88.06/70.24/87.83 |
89.71/89.72 |
36.13/35.97 |
33.6/60.5 |
82.72/82.63 |
TookaBERT-base |
83.93/83.93 |
66.23/93.3 |
73.18/85.71/68.29/85.94 |
83.26/83.41 |
33.6/33.81 |
20.8/42.52 |
81.33/81.29 |
Shiraz |
81.17/81.08 |
59.1/92.83 |
65.96/81.25/59.63/81.31 |
77.76/77.75 |
34.73/34.53 |
17.6/39.61 |
79.68/79.51 |
ParsBERT |
80.22/80.23 |
64.91/93.23 |
71.41/84.21/66.29/84.57 |
80.89/80.94 |
35.34/35.25 |
20/39.58 |
80.15/80.07 |
XLM-V-base |
83.43/83.36 |
58.83/92.23 |
73.26/85.69/68.21/85.56 |
81.1/81.2 |
35.28/35.25 |
8/26.66 |
80.1/79.96 |
XLM-RoBERTa-base |
83.99/84.07 |
60.38/92.49 |
73.72/86.24/68.16/85.8 |
82.0/81.98 |
32.4/32.37 |
20.0/40.43 |
79.14/78.95 |
FaBERT |
82.68/82.65 |
63.89/93.01 |
72.57/85.39/67.16/85.31 |
83.69/83.67 |
32.47/32.37 |
27.2/48.42 |
82.34/82.29 |
mBERT |
78.57/78.66 |
60.31/92.54 |
71.79/84.68/65.89/83.99 |
82.69/82.82 |
33.41/33.09 |
27.2/42.18 |
79.19/79.29 |
AriaBERT |
80.51/80.51 |
60.98/92.45 |
68.09/81.23/62.12/80.94 |
74.47/74.43 |
30.75/30.94 |
14.4/35.48 |
79.09/78.84 |
⚠️ 重要提示
由于微调过程中的随机性,差异小于1%的结果视为相同。
📄 许可证
本模型采用Apache-2.0许可证。
🔧 技术细节
文档未提及技术实现细节,此章节跳过。
联系我们
如果你对该模型有任何疑问,可以通过Hugging Face上的社区与我们联系。