B

Bert Base Japanese Whole Word Masking

由tohoku-nlp開發
基於日語文本預訓練的BERT模型,採用IPA詞典分詞和全詞掩碼技術
下載量 113.33k
發布時間 : 3/2/2022

模型概述

這是一個基於日語維基百科語料預訓練的BERT模型,主要用於日語自然語言處理任務。模型採用IPA詞典進行詞語級分詞,並支持全詞掩碼訓練機制。

模型特點

IPA詞典分詞
使用MeCab分詞器配合IPA詞典進行詞語級切分,更適合日語語言特點
全詞掩碼技術
訓練時對完整詞語的所有子詞token同時進行掩碼,提升語言建模效果
大規模預訓練
基於2.6GB日語維基百科語料(約1700萬句)訓練100萬步

模型能力

日語文本理解
日語語言建模
日語文本特徵提取

使用案例

自然語言處理
日語文本分類
可用於新聞分類、情感分析等任務
日語問答系統
作為基礎模型構建日語問答應用
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase