TookaBERT-Base开源编码器模型 - 免费用于波斯语自然语言处理任务

首页

Tookabert Base

由 PartAI 开发

TookaBERT是基于波斯语训练的编码器模型家族，包含基础版和大规模版两个版本，适用于多种自然语言处理任务。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #波斯语填充掩码 #大规模预训练 #多任务微调

下载量 127

发布时间 : 4/29/2024

模型简介

TookaBERT模型是基于波斯语训练的编码器模型家族，适用于填充掩码任务，支持多种下游任务如情感分析、文本分类、多项选择、问答和命名实体识别。

模型特点

多主题预训练

在超过500GB的波斯语数据上进行预训练，涵盖新闻、博客、论坛、书籍等多种主题。

遮蔽语言建模

采用遮蔽语言建模（WWM）目标进行预训练，支持填充掩码任务。

多任务支持

支持多种下游任务，包括情感分析、文本分类、多项选择、问答和命名实体识别。

模型能力

填充掩码

情感分析

文本分类

多项选择

问答

命名实体识别

使用案例

情感分析

DeepSentiPers

用于波斯语情感分析任务

f1/acc: 85.66/85.78 (TookaBERT-large)

命名实体识别

MultiCoNER-v2

用于波斯语命名实体识别任务

f1/acc: 69.69/94.07 (TookaBERT-large)

问答

PQuAD

用于波斯语问答任务

best_exact/best_f1/HasAns_exact/HasAns_f1: 75.56/88.06/70.24/87.83 (TookaBERT-large)

🚀 TookaBERT模型

TookaBERT模型是一系列基于波斯语训练的编码器模型，有基础和大型两种规格。这些模型在超过500GB的波斯语数据上进行预训练，数据涵盖新闻、博客、论坛、书籍等多种主题。它们使用两种上下文长度，以MLM（WWM）为目标进行预训练。

🚀 快速开始

你可以使用下面提供的代码，直接将此模型用于掩码语言建模任务。

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Base")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Base")

# prepare input
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

也可以使用如下的推理管道：

from transformers import pipeline

inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Base")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")

你还可以使用该模型在自己的数据集上进行微调，以适配特定任务。

✨ 主要特性

TookaBERT模型是一系列针对波斯语训练的编码器模型，有基础和大型两种规格。这些模型在超过500GB的波斯语数据上进行预训练，数据来源广泛，包括新闻、博客、论坛、书籍等。它们采用两种上下文长度，并以MLM（WWM）为目标进行预训练。

📚 详细文档

如需更多信息，你可以阅读我们发表在 arXiv 上的论文。

🔧 技术细节

TookaBERT模型在多种NLP下游任务上进行了评估，包括情感分析（SA）、文本分类、多项选择、问答和命名实体识别（NER）等。以下是一些关键的性能结果：

模型名称	DeepSentiPers（f1/acc）	MultiCoNER - v2（f1/acc）	PQuAD（best_exact/best_f1/HasAns_exact/HasAns_f1）	FarsTail（f1/acc）	ParsiNLU - 多项选择（f1/acc）	ParsiNLU - 阅读理解（exact/f1）	ParsiNLU - QQP（f1/acc）
TookaBERT - large	85.66/85.78	69.69/94.07	75.56/88.06/70.24/87.83	89.71/89.72	36.13/35.97	33.6/60.5	82.72/82.63
TookaBERT - base	83.93/83.93	66.23/93.3	73.18/85.71/68.29/85.94	83.26/83.41	33.6/33.81	20.8/42.52	81.33/81.29
Shiraz	81.17/81.08	59.1/92.83	65.96/81.25/59.63/81.31	77.76/77.75	34.73/34.53	17.6/39.61	79.68/79.51
ParsBERT	80.22/80.23	64.91/93.23	71.41/84.21/66.29/84.57	80.89/80.94	35.34/35.25	20/39.58	80.15/80.07
XLM - V - base	83.43/83.36	58.83/92.23	73.26/85.69/68.21/85.56	81.1/81.2	35.28/35.25	8/26.66	80.1/79.96
XLM - RoBERTa - base	83.99/84.07	60.38/92.49	73.72/86.24/68.16/85.8	82.0/81.98	32.4/32.37	20.0/40.43	79.14/78.95
FaBERT	82.68/82.65	63.89/93.01	72.57/85.39/67.16/85.31	83.69/83.67	32.47/32.37	27.2/48.42	82.34/82.29
mBERT	78.57/78.66	60.31/92.54	71.79/84.68/65.89/83.99	82.69/82.82	33.41/33.09	27.2/42.18	79.19/79.29
AriaBERT	80.51/80.51	60.98/92.45	68.09/81.23/62.12/80.94	74.47/74.43	30.75/30.94	14.4/35.48	79.09/78.84