TookaBERT-Large開源模型 - 基於海量波斯語數據，滿足多主題需求

首頁

Tookabert Large

由PartAI開發

TookaBERT是一系列基於波斯語訓練的編碼器模型，包含基礎版和大模型版兩種規格，在超過500GB的波斯語數據上進行預訓練，涵蓋多種主題。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #波斯語預訓練 #大型編碼器 #多任務領先

下載量 271

發布時間 : 4/29/2024

模型概述

TookaBERT是專為波斯語設計的預訓練語言模型，採用MLM（WWM）目標函數，支持多種NLP下游任務。TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型，在波斯語任務中表現領先。

模型特點

大規模波斯語預訓練

在超過500GB的波斯語數據上進行預訓練，數據涵蓋新聞、博客、論壇、書籍等多種主題。

兩種模型規格

提供基礎版和大模型版兩種規格，滿足不同計算資源和性能需求。

先進的訓練目標

採用MLM（WWM）目標函數，在兩種上下文長度下進行預訓練，提升模型理解能力。

領先性能

TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型，在多項波斯語NLP任務中表現最佳。

模型能力

掩碼語言建模

文本分類

情感分析

命名實體識別

問答系統

多項選擇任務

閱讀理解

使用案例

情感分析

DeepSentiPers情感分析

用於波斯語文本的情感分析任務

F1分數85.66，準確率85.78

命名實體識別

MultiCoNER-v2實體識別

用於波斯語命名實體識別任務

F1分數69.69，準確率94.07

問答系統

PQuAD問答任務

用於波斯語問答任務

最佳精確匹配75.56，最佳F1分數88.06

文本推理

FarsTail文本推理

用於波斯語文本推理任務

F1分數89.71，準確率89.72

🚀 TookaBERT模型

TookaBERT是一系列基於波斯語訓練的編碼器模型，有基礎版和大模型版兩種規格。該模型在超過500GB的波斯語數據上進行預訓練，數據涵蓋新聞、博客、論壇、書籍等多種主題。它們採用MLM（WWM）目標函數，在兩種上下文長度下進行預訓練。TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型，目前在波斯語任務中處於領先水平。

如需瞭解更多信息，可閱讀我們發表在arXiv上的論文。

🚀 快速開始

✨ 主要特性

TookaBERT模型有基礎版和大模型版兩種規格。
在超500GB的波斯語數據上進行預訓練，數據主題豐富。
採用MLM（WWM）目標函數，在兩種上下文長度下預訓練。
TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型，在波斯語任務中表現出色。

📦 安裝指南

文檔未提及安裝步驟，此章節跳過。

💻 使用示例

基礎用法

你可以使用以下代碼直接進行掩碼語言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Large")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Large")

# prepare input
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')

# forward pass
output = model(**encoded_input)

高級用法

也可以使用推理管道，示例如下：

from transformers import pipeline

inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Large")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")

你還可以使用該模型在自己的數據集上進行微調，以適應特定任務，如：

DeepSentiPers（情感分析）
ParsiNLU - Multiple-choice（多項選擇）

📚 詳細文檔

TookaBERT模型在一系列NLP下游任務中進行了評估，包括情感分析（SA）、文本分類、多項選擇、問答和命名實體識別（NER）。以下是一些關鍵性能結果：

屬性	詳情
模型類型	TookaBERT-large、TookaBERT-base等
訓練數據	超過500GB的波斯語數據，涵蓋新聞、博客、論壇、書籍等多種主題

模型名稱	DeepSentiPers (f1/acc)	MultiCoNER-v2 (f1/acc)	PQuAD (best_exact/best_f1/HasAns_exact/HasAns_f1)	FarsTail (f1/acc)	ParsiNLU-Multiple-choice (f1/acc)	ParsiNLU-Reading-comprehension (exact/f1)	ParsiNLU-QQP (f1/acc)
TookaBERT-large	85.66/85.78	69.69/94.07	75.56/88.06/70.24/87.83	89.71/89.72	36.13/35.97	33.6/60.5	82.72/82.63
TookaBERT-base	83.93/83.93	66.23/93.3	73.18/85.71/68.29/85.94	83.26/83.41	33.6/33.81	20.8/42.52	81.33/81.29
Shiraz	81.17/81.08	59.1/92.83	65.96/81.25/59.63/81.31	77.76/77.75	34.73/34.53	17.6/39.61	79.68/79.51
ParsBERT	80.22/80.23	64.91/93.23	71.41/84.21/66.29/84.57	80.89/80.94	35.34/35.25	20/39.58	80.15/80.07
XLM-V-base	83.43/83.36	58.83/92.23	73.26/85.69/68.21/85.56	81.1/81.2	35.28/35.25	8/26.66	80.1/79.96
XLM-RoBERTa-base	83.99/84.07	60.38/92.49	73.72/86.24/68.16/85.8	82.0/81.98	32.4/32.37	20.0/40.43	79.14/78.95
FaBERT	82.68/82.65	63.89/93.01	72.57/85.39/67.16/85.31	83.69/83.67	32.47/32.37	27.2/48.42	82.34/82.29
mBERT	78.57/78.66	60.31/92.54	71.79/84.68/65.89/83.99	82.69/82.82	33.41/33.09	27.2/42.18	79.19/79.29
AriaBERT	80.51/80.51	60.98/92.45	68.09/81.23/62.12/80.94	74.47/74.43	30.75/30.94	14.4/35.48	79.09/78.84