B

Bert Large Japanese Char

由tohoku-nlp開發
基於日語維基百科預訓練的BERT模型,採用字符級分詞與全詞掩碼策略,適用於日語自然語言處理任務
下載量 24
發布時間 : 3/2/2022

模型概述

該模型是專門針對日語文本優化的BERT變體,通過結合詞級和字符級分詞技術,在掩碼語言建模任務中表現優異

模型特點

混合分詞策略
先使用MeCab+Unidic進行詞級分詞,再拆分為字符級表示,兼顧詞語信息和細粒度處理
全詞掩碼訓練
同一詞語的所有子詞token會同時被掩碼,提升模型對完整詞語的理解能力
大規模預訓練
基於4.0GB日語維基百科語料(3000萬句子)訓練100萬步

模型能力

日語文本理解
掩碼語言預測
上下文表徵學習

使用案例

自然語言處理
文本填空
預測文本中被掩碼的詞語,如示例'在東北大學從事[MASK]的研究'
下游任務微調
可用於文本分類、命名實體識別等NLP任務的基準模型
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase