B

Bert Large Japanese

由tohoku-nlp開發
基於日語維基百科預訓練的BERT大型模型,採用Unidic詞典分詞和全詞掩碼策略
下載量 1,272
發布時間 : 3/2/2022

模型概述

這是一個針對日語文本優化的BERT模型,適用於各種自然語言處理任務,如文本分類、命名實體識別和問答系統。

模型特點

全詞掩碼策略
採用MeCab分出的完整詞彙對應的所有子詞token同時被掩碼的訓練方式,提高模型理解能力
Unidic詞典分詞
使用Unidic 2.1.2詞典進行詞彙級分詞,再結合WordPiece子詞切分處理輸入文本
大規模預訓練數據
基於日語維基百科2020年8月31日版本,包含約3000萬語句

模型能力

日語文本理解
掩碼語言建模
文本特徵提取
下游NLP任務微調

使用案例

自然語言處理
文本分類
對日語文本進行分類任務
命名實體識別
識別日語文本中的專有名詞和實體
問答系統
構建日語問答系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase