TookaBERT-Base開源編碼器模型 - 免費用於波斯語自然語言處理任務

首頁

Tookabert Base

由PartAI開發

TookaBERT是基於波斯語訓練的編碼器模型家族，包含基礎版和大規模版兩個版本，適用於多種自然語言處理任務。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #波斯語填充掩碼 #大規模預訓練 #多任務微調

下載量 127

發布時間 : 4/29/2024

模型概述

TookaBERT模型是基於波斯語訓練的編碼器模型家族，適用於填充掩碼任務，支持多種下游任務如情感分析、文本分類、多項選擇、問答和命名實體識別。

模型特點

多主題預訓練

在超過500GB的波斯語數據上進行預訓練，涵蓋新聞、博客、論壇、書籍等多種主題。

遮蔽語言建模

採用遮蔽語言建模（WWM）目標進行預訓練，支持填充掩碼任務。

多任務支持

支持多種下游任務，包括情感分析、文本分類、多項選擇、問答和命名實體識別。

模型能力

填充掩碼

情感分析

文本分類

多項選擇

問答

命名實體識別

使用案例

情感分析

DeepSentiPers

用於波斯語情感分析任務

f1/acc: 85.66/85.78 (TookaBERT-large)

命名實體識別

MultiCoNER-v2

用於波斯語命名實體識別任務

f1/acc: 69.69/94.07 (TookaBERT-large)

問答

PQuAD

用於波斯語問答任務

best_exact/best_f1/HasAns_exact/HasAns_f1: 75.56/88.06/70.24/87.83 (TookaBERT-large)

🚀 TookaBERT模型

TookaBERT模型是一系列基於波斯語訓練的編碼器模型，有基礎和大型兩種規格。這些模型在超過500GB的波斯語數據上進行預訓練，數據涵蓋新聞、博客、論壇、書籍等多種主題。它們使用兩種上下文長度，以MLM（WWM）為目標進行預訓練。

🚀 快速開始

你可以使用下面提供的代碼，直接將此模型用於掩碼語言建模任務。

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Base")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Base")

# prepare input
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

也可以使用如下的推理管道：

from transformers import pipeline

inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Base")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")

你還可以使用該模型在自己的數據集上進行微調，以適配特定任務。

✨ 主要特性

TookaBERT模型是一系列針對波斯語訓練的編碼器模型，有基礎和大型兩種規格。這些模型在超過500GB的波斯語數據上進行預訓練，數據來源廣泛，包括新聞、博客、論壇、書籍等。它們採用兩種上下文長度，並以MLM（WWM）為目標進行預訓練。

📚 詳細文檔

如需更多信息，你可以閱讀我們發表在 arXiv 上的論文。

🔧 技術細節

TookaBERT模型在多種NLP下游任務上進行了評估，包括情感分析（SA）、文本分類、多項選擇、問答和命名實體識別（NER）等。以下是一些關鍵的性能結果：

模型名稱	DeepSentiPers（f1/acc）	MultiCoNER - v2（f1/acc）	PQuAD（best_exact/best_f1/HasAns_exact/HasAns_f1）	FarsTail（f1/acc）	ParsiNLU - 多項選擇（f1/acc）	ParsiNLU - 閱讀理解（exact/f1）	ParsiNLU - QQP（f1/acc）
TookaBERT - large	85.66/85.78	69.69/94.07	75.56/88.06/70.24/87.83	89.71/89.72	36.13/35.97	33.6/60.5	82.72/82.63
TookaBERT - base	83.93/83.93	66.23/93.3	73.18/85.71/68.29/85.94	83.26/83.41	33.6/33.81	20.8/42.52	81.33/81.29
Shiraz	81.17/81.08	59.1/92.83	65.96/81.25/59.63/81.31	77.76/77.75	34.73/34.53	17.6/39.61	79.68/79.51
ParsBERT	80.22/80.23	64.91/93.23	71.41/84.21/66.29/84.57	80.89/80.94	35.34/35.25	20/39.58	80.15/80.07
XLM - V - base	83.43/83.36	58.83/92.23	73.26/85.69/68.21/85.56	81.1/81.2	35.28/35.25	8/26.66	80.1/79.96
XLM - RoBERTa - base	83.99/84.07	60.38/92.49	73.72/86.24/68.16/85.8	82.0/81.98	32.4/32.37	20.0/40.43	79.14/78.95
FaBERT	82.68/82.65	63.89/93.01	72.57/85.39/67.16/85.31	83.69/83.67	32.47/32.37	27.2/48.42	82.34/82.29
mBERT	78.57/78.66	60.31/92.54	71.79/84.68/65.89/83.99	82.69/82.82	33.41/33.09	27.2/42.18	79.19/79.29
AriaBERT	80.51/80.51	60.98/92.45	68.09/81.23/62.12/80.94	74.47/74.43	30.75/30.94	14.4/35.48	79.09/78.84