B

Bert Base Japanese Char V2

由tohoku-nlp開發
針對日語文本預訓練的BERT模型,採用字符級分詞和全詞掩碼機制,基於日語維基百科2020年8月31日版本訓練
下載量 134.28k
發布時間 : 3/2/2022

模型概述

這是一個專門為日語文本設計的BERT預訓練模型,採用字符級分詞和全詞掩碼策略,適用於各種日語自然語言處理任務

模型特點

字符級分詞
先使用MeCab+Unidic詞典進行詞語切分,再拆解為字符,詞表規模為6144
全詞掩碼機制
在MLM任務中,同一詞語的所有子詞token會被同時掩碼
專業日語處理
使用MeCab配合mecab-ipadic-NEologd詞典進行文本分句處理

模型能力

日語文本理解
日語文本特徵提取
日語語言模型微調

使用案例

自然語言處理
日語文本分類
可用於日語新聞分類、情感分析等任務
日語問答系統
作為基礎模型構建日語問答系統
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase