B

Bert 1.3b

由 retrieva-jp 开发
基于Megatron-LM预训练的Transformer编码器,专为日语场景设计
下载量 56
发布时间 : 6/25/2024

模型简介

RetrievaBERT是基于Megatron-LM框架预训练的Transformer编码器,主要面向日语应用场景,具备预归一化、SwiGLU激活函数等先进特性

模型特点

预归一化(PreNorm)
提升训练稳定性
SwiGLU激活函数
增强模型表现力
分组查询注意力机制
高效注意力计算
长文本处理能力
支持2048个token的长文本处理

模型能力

日语文本理解
英语文本理解
掩码语言建模
下游任务微调

使用案例

文本理解
日语文本分类
可用于日语情感分析、主题分类等任务
在MARC-ja任务上达到0.959准确率
语义相似度计算
可用于计算日语文本对之间的语义相似度
在JSTS任务上皮尔逊相关系数0.917
问答系统
日语问答系统
可用于构建基于日语的问答系统
在JSQuAD任务上EM分数0.875
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase