T

Tookabert Base

由PartAI開發
TookaBERT是基於波斯語訓練的編碼器模型家族,包含基礎版和大規模版兩個版本,適用於多種自然語言處理任務。
下載量 127
發布時間 : 4/29/2024

模型概述

TookaBERT模型是基於波斯語訓練的編碼器模型家族,適用於填充掩碼任務,支持多種下游任務如情感分析、文本分類、多項選擇、問答和命名實體識別。

模型特點

多主題預訓練
在超過500GB的波斯語數據上進行預訓練,涵蓋新聞、博客、論壇、書籍等多種主題。
遮蔽語言建模
採用遮蔽語言建模(WWM)目標進行預訓練,支持填充掩碼任務。
多任務支持
支持多種下游任務,包括情感分析、文本分類、多項選擇、問答和命名實體識別。

模型能力

填充掩碼
情感分析
文本分類
多項選擇
問答
命名實體識別

使用案例

情感分析
DeepSentiPers
用於波斯語情感分析任務
f1/acc: 85.66/85.78 (TookaBERT-large)
命名實體識別
MultiCoNER-v2
用於波斯語命名實體識別任務
f1/acc: 69.69/94.07 (TookaBERT-large)
問答
PQuAD
用於波斯語問答任務
best_exact/best_f1/HasAns_exact/HasAns_f1: 75.56/88.06/70.24/87.83 (TookaBERT-large)
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase