T

Tookabert Large

由 PartAI 开发
TookaBERT是一系列基于波斯语训练的编码器模型,包含基础版和大模型版两种规格,在超过500GB的波斯语数据上进行预训练,涵盖多种主题。
下载量 271
发布时间 : 4/29/2024

模型简介

TookaBERT是专为波斯语设计的预训练语言模型,采用MLM(WWM)目标函数,支持多种NLP下游任务。TookaBERT-Large是首个基于波斯语预训练的大型编码器模型,在波斯语任务中表现领先。

模型特点

大规模波斯语预训练
在超过500GB的波斯语数据上进行预训练,数据涵盖新闻、博客、论坛、书籍等多种主题。
两种模型规格
提供基础版和大模型版两种规格,满足不同计算资源和性能需求。
先进的训练目标
采用MLM(WWM)目标函数,在两种上下文长度下进行预训练,提升模型理解能力。
领先性能
TookaBERT-Large是首个基于波斯语预训练的大型编码器模型,在多项波斯语NLP任务中表现最佳。

模型能力

掩码语言建模
文本分类
情感分析
命名实体识别
问答系统
多项选择任务
阅读理解

使用案例

情感分析
DeepSentiPers情感分析
用于波斯语文本的情感分析任务
F1分数85.66,准确率85.78
命名实体识别
MultiCoNER-v2实体识别
用于波斯语命名实体识别任务
F1分数69.69,准确率94.07
问答系统
PQuAD问答任务
用于波斯语问答任务
最佳精确匹配75.56,最佳F1分数88.06
文本推理
FarsTail文本推理
用于波斯语文本推理任务
F1分数89.71,准确率89.72
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase