TookaBERT-Large开源模型 - 基于海量波斯语数据，满足多主题需求

首页

Tookabert Large

由 PartAI 开发

TookaBERT是一系列基于波斯语训练的编码器模型，包含基础版和大模型版两种规格，在超过500GB的波斯语数据上进行预训练，涵盖多种主题。

大型语言模型

Transformers

其他开源协议:Apache-2.0 #波斯语预训练 #大型编码器 #多任务领先

下载量 271

发布时间 : 4/29/2024

模型简介

TookaBERT是专为波斯语设计的预训练语言模型，采用MLM（WWM）目标函数，支持多种NLP下游任务。TookaBERT-Large是首个基于波斯语预训练的大型编码器模型，在波斯语任务中表现领先。

模型特点

大规模波斯语预训练

在超过500GB的波斯语数据上进行预训练，数据涵盖新闻、博客、论坛、书籍等多种主题。

两种模型规格

提供基础版和大模型版两种规格，满足不同计算资源和性能需求。

先进的训练目标

采用MLM（WWM）目标函数，在两种上下文长度下进行预训练，提升模型理解能力。

领先性能

TookaBERT-Large是首个基于波斯语预训练的大型编码器模型，在多项波斯语NLP任务中表现最佳。

模型能力

掩码语言建模

文本分类

情感分析

命名实体识别

问答系统

多项选择任务

阅读理解

使用案例

情感分析

DeepSentiPers情感分析

用于波斯语文本的情感分析任务

F1分数85.66，准确率85.78

命名实体识别

MultiCoNER-v2实体识别

用于波斯语命名实体识别任务

F1分数69.69，准确率94.07

问答系统

PQuAD问答任务

用于波斯语问答任务

最佳精确匹配75.56，最佳F1分数88.06

文本推理

FarsTail文本推理

用于波斯语文本推理任务

F1分数89.71，准确率89.72

🚀 TookaBERT模型

TookaBERT是一系列基于波斯语训练的编码器模型，有基础版和大模型版两种规格。该模型在超过500GB的波斯语数据上进行预训练，数据涵盖新闻、博客、论坛、书籍等多种主题。它们采用MLM（WWM）目标函数，在两种上下文长度下进行预训练。TookaBERT-Large是首个基于波斯语预训练的大型编码器模型，目前在波斯语任务中处于领先水平。

如需了解更多信息，可阅读我们发表在arXiv上的论文。

🚀 快速开始

✨ 主要特性

TookaBERT模型有基础版和大模型版两种规格。
在超500GB的波斯语数据上进行预训练，数据主题丰富。
采用MLM（WWM）目标函数，在两种上下文长度下预训练。
TookaBERT-Large是首个基于波斯语预训练的大型编码器模型，在波斯语任务中表现出色。

📦 安装指南

文档未提及安装步骤，此章节跳过。

💻 使用示例

基础用法

你可以使用以下代码直接进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Large")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Large")

# prepare input
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

高级用法

也可以使用推理管道，示例如下：

from transformers import pipeline

inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Large")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")

你还可以使用该模型在自己的数据集上进行微调，以适应特定任务，如：

DeepSentiPers（情感分析）
ParsiNLU - Multiple-choice（多项选择）

📚 详细文档

TookaBERT模型在一系列NLP下游任务中进行了评估，包括情感分析（SA）、文本分类、多项选择、问答和命名实体识别（NER）。以下是一些关键性能结果：

属性	详情
模型类型	TookaBERT-large、TookaBERT-base等
训练数据	超过500GB的波斯语数据，涵盖新闻、博客、论坛、书籍等多种主题

模型名称	DeepSentiPers (f1/acc)	MultiCoNER-v2 (f1/acc)	PQuAD (best_exact/best_f1/HasAns_exact/HasAns_f1)	FarsTail (f1/acc)	ParsiNLU-Multiple-choice (f1/acc)	ParsiNLU-Reading-comprehension (exact/f1)	ParsiNLU-QQP (f1/acc)
TookaBERT-large	85.66/85.78	69.69/94.07	75.56/88.06/70.24/87.83	89.71/89.72	36.13/35.97	33.6/60.5	82.72/82.63
TookaBERT-base	83.93/83.93	66.23/93.3	73.18/85.71/68.29/85.94	83.26/83.41	33.6/33.81	20.8/42.52	81.33/81.29
Shiraz	81.17/81.08	59.1/92.83	65.96/81.25/59.63/81.31	77.76/77.75	34.73/34.53	17.6/39.61	79.68/79.51
ParsBERT	80.22/80.23	64.91/93.23	71.41/84.21/66.29/84.57	80.89/80.94	35.34/35.25	20/39.58	80.15/80.07
XLM-V-base	83.43/83.36	58.83/92.23	73.26/85.69/68.21/85.56	81.1/81.2	35.28/35.25	8/26.66	80.1/79.96
XLM-RoBERTa-base	83.99/84.07	60.38/92.49	73.72/86.24/68.16/85.8	82.0/81.98	32.4/32.37	20.0/40.43	79.14/78.95
FaBERT	82.68/82.65	63.89/93.01	72.57/85.39/67.16/85.31	83.69/83.67	32.47/32.37	27.2/48.42	82.34/82.29
mBERT	78.57/78.66	60.31/92.54	71.79/84.68/65.89/83.99	82.69/82.82	33.41/33.09	27.2/42.18	79.19/79.29
AriaBERT	80.51/80.51	60.98/92.45	68.09/81.23/62.12/80.94	74.47/74.43	30.75/30.94	14.4/35.48	79.09/78.84