🚀 TookaBERT模型
TookaBERT是一系列基於波斯語訓練的編碼器模型,有基礎版和大模型版兩種規格。該模型在超過500GB的波斯語數據上進行預訓練,數據涵蓋新聞、博客、論壇、書籍等多種主題。它們採用MLM(WWM)目標函數,在兩種上下文長度下進行預訓練。TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型,目前在波斯語任務中處於領先水平。
如需瞭解更多信息,可閱讀我們發表在arXiv上的論文。
🚀 快速開始
✨ 主要特性
- TookaBERT模型有基礎版和大模型版兩種規格。
- 在超500GB的波斯語數據上進行預訓練,數據主題豐富。
- 採用MLM(WWM)目標函數,在兩種上下文長度下預訓練。
- TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型,在波斯語任務中表現出色。
📦 安裝指南
文檔未提及安裝步驟,此章節跳過。
💻 使用示例
基礎用法
你可以使用以下代碼直接進行掩碼語言建模:
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("PartAI/TookaBERT-Large")
model = AutoModelForMaskedLM.from_pretrained("PartAI/TookaBERT-Large")
text = "شهر برلین در کشور <mask> واقع شده است."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
高級用法
也可以使用推理管道,示例如下:
from transformers import pipeline
inference_pipeline = pipeline('fill-mask', model="PartAI/TookaBERT-Large")
inference_pipeline("شهر برلین در کشور <mask> واقع شده است.")
你還可以使用該模型在自己的數據集上進行微調,以適應特定任務,如:
- DeepSentiPers(情感分析)

- ParsiNLU - Multiple-choice(多項選擇)

📚 詳細文檔
TookaBERT模型在一系列NLP下游任務中進行了評估,包括情感分析(SA)、文本分類、多項選擇、問答和命名實體識別(NER)。以下是一些關鍵性能結果:
屬性 |
詳情 |
模型類型 |
TookaBERT-large、TookaBERT-base等 |
訓練數據 |
超過500GB的波斯語數據,涵蓋新聞、博客、論壇、書籍等多種主題 |
模型名稱 |
DeepSentiPers (f1/acc) |
MultiCoNER-v2 (f1/acc) |
PQuAD (best_exact/best_f1/HasAns_exact/HasAns_f1) |
FarsTail (f1/acc) |
ParsiNLU-Multiple-choice (f1/acc) |
ParsiNLU-Reading-comprehension (exact/f1) |
ParsiNLU-QQP (f1/acc) |
TookaBERT-large |
85.66/85.78 |
69.69/94.07 |
75.56/88.06/70.24/87.83 |
89.71/89.72 |
36.13/35.97 |
33.6/60.5 |
82.72/82.63 |
TookaBERT-base |
83.93/83.93 |
66.23/93.3 |
73.18/85.71/68.29/85.94 |
83.26/83.41 |
33.6/33.81 |
20.8/42.52 |
81.33/81.29 |
Shiraz |
81.17/81.08 |
59.1/92.83 |
65.96/81.25/59.63/81.31 |
77.76/77.75 |
34.73/34.53 |
17.6/39.61 |
79.68/79.51 |
ParsBERT |
80.22/80.23 |
64.91/93.23 |
71.41/84.21/66.29/84.57 |
80.89/80.94 |
35.34/35.25 |
20/39.58 |
80.15/80.07 |
XLM-V-base |
83.43/83.36 |
58.83/92.23 |
73.26/85.69/68.21/85.56 |
81.1/81.2 |
35.28/35.25 |
8/26.66 |
80.1/79.96 |
XLM-RoBERTa-base |
83.99/84.07 |
60.38/92.49 |
73.72/86.24/68.16/85.8 |
82.0/81.98 |
32.4/32.37 |
20.0/40.43 |
79.14/78.95 |
FaBERT |
82.68/82.65 |
63.89/93.01 |
72.57/85.39/67.16/85.31 |
83.69/83.67 |
32.47/32.37 |
27.2/48.42 |
82.34/82.29 |
mBERT |
78.57/78.66 |
60.31/92.54 |
71.79/84.68/65.89/83.99 |
82.69/82.82 |
33.41/33.09 |
27.2/42.18 |
79.19/79.29 |
AriaBERT |
80.51/80.51 |
60.98/92.45 |
68.09/81.23/62.12/80.94 |
74.47/74.43 |
30.75/30.94 |
14.4/35.48 |
79.09/78.84 |
⚠️ 重要提示
由於微調過程中的隨機性,差異小於1%的結果視為相同。
📄 許可證
本模型採用Apache-2.0許可證。
🔧 技術細節
文檔未提及技術實現細節,此章節跳過。
聯繫我們
如果你對該模型有任何疑問,可以通過Hugging Face上的社區與我們聯繫。