B

Bert 1.3b

由retrieva-jp開發
基於Megatron-LM預訓練的Transformer編碼器,專為日語場景設計
下載量 56
發布時間 : 6/25/2024

模型概述

RetrievaBERT是基於Megatron-LM框架預訓練的Transformer編碼器,主要面向日語應用場景,具備預歸一化、SwiGLU激活函數等先進特性

模型特點

預歸一化(PreNorm)
提升訓練穩定性
SwiGLU激活函數
增強模型表現力
分組查詢注意力機制
高效注意力計算
長文本處理能力
支持2048個token的長文本處理

模型能力

日語文本理解
英語文本理解
掩碼語言建模
下游任務微調

使用案例

文本理解
日語文本分類
可用於日語情感分析、主題分類等任務
在MARC-ja任務上達到0.959準確率
語義相似度計算
可用於計算日語文本對之間的語義相似度
在JSTS任務上皮爾遜相關係數0.917
問答系統
日語問答系統
可用於構建基於日語的問答系統
在JSQuAD任務上EM分數0.875
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase