T

Tookabert Large

由PartAI開發
TookaBERT是一系列基於波斯語訓練的編碼器模型,包含基礎版和大模型版兩種規格,在超過500GB的波斯語數據上進行預訓練,涵蓋多種主題。
下載量 271
發布時間 : 4/29/2024

模型概述

TookaBERT是專為波斯語設計的預訓練語言模型,採用MLM(WWM)目標函數,支持多種NLP下游任務。TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型,在波斯語任務中表現領先。

模型特點

大規模波斯語預訓練
在超過500GB的波斯語數據上進行預訓練,數據涵蓋新聞、博客、論壇、書籍等多種主題。
兩種模型規格
提供基礎版和大模型版兩種規格,滿足不同計算資源和性能需求。
先進的訓練目標
採用MLM(WWM)目標函數,在兩種上下文長度下進行預訓練,提升模型理解能力。
領先性能
TookaBERT-Large是首個基於波斯語預訓練的大型編碼器模型,在多項波斯語NLP任務中表現最佳。

模型能力

掩碼語言建模
文本分類
情感分析
命名實體識別
問答系統
多項選擇任務
閱讀理解

使用案例

情感分析
DeepSentiPers情感分析
用於波斯語文本的情感分析任務
F1分數85.66,準確率85.78
命名實體識別
MultiCoNER-v2實體識別
用於波斯語命名實體識別任務
F1分數69.69,準確率94.07
問答系統
PQuAD問答任務
用於波斯語問答任務
最佳精確匹配75.56,最佳F1分數88.06
文本推理
FarsTail文本推理
用於波斯語文本推理任務
F1分數89.71,準確率89.72
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase