bert-large-japanese开源日语BERT模型 - 基于维基百科训练助力日语文本处理

Home

Bert Large Japanese

Developed by tohoku-nlp

基于日语维基百科预训练的BERT大型模型，采用Unidic词典分词和全词掩码策略

大型语言模型 Japanese#日语全词掩码 #维基百科预训练 #Unidic分词

Downloads 1,272

Release Time : 3/2/2022

Model Overview

这是一个针对日语文本优化的BERT模型，适用于各种自然语言处理任务，如文本分类、命名实体识别和问答系统。

Model Features

全词掩码策略

采用MeCab分出的完整词汇对应的所有子词token同时被掩码的训练方式，提高模型理解能力

Unidic词典分词

使用Unidic 2.1.2词典进行词汇级分词，再结合WordPiece子词切分处理输入文本

大规模预训练数据

基于日语维基百科2020年8月31日版本，包含约3000万语句

Model Capabilities

日语文本理解

掩码语言建模

文本特征提取

下游NLP任务微调

Use Cases

自然语言处理

文本分类

对日语文本进行分类任务

命名实体识别

识别日语文本中的专有名词和实体

问答系统

构建日语问答系统

🚀 BERT large 日语模型 (unidic-lite 全词掩码，jawiki-20200831)

这是一个基于日语文本预训练的 BERT 模型，能有效处理日语相关的自然语言处理任务。

🚀 快速开始

此模型是基于日语文本进行预训练的 BERT 模型。该版本模型基于 Unidic 2.1.2 字典（可在 unidic-lite 包中获取）以词级进行输入文本分词，随后进行 WordPiece 子词分词。此外，该模型在训练掩码语言模型（MLM）目标时启用了全词掩码。预训练代码可在 cl-tohoku/bert-japanese 找到。

✨ 主要特性

词级与子词分词结合：先基于 Unidic 2.1.2 字典进行词级分词，再使用 WordPiece 算法进行子词分词。
全词掩码训练：在训练掩码语言模型（MLM）目标时启用全词掩码，提升模型性能。

📚 详细文档

模型架构

模型架构与原始 BERT large 模型相同，包含 24 层、1024 维隐藏状态和 16 个注意力头。

训练数据

模型在日语版维基百科上进行训练。训练语料库由 2020 年 8 月 31 日的维基百科 Cirrussearch 转储文件生成。生成的语料库文件总计 4.0GB，包含约 3000 万条句子。使用 MeCab 形态分析器和 mecab-ipadic-NEologd 字典将文本分割成句子。

分词

文本首先使用 MeCab 和 Unidic 2.1.2 字典进行分词，然后通过 WordPiece 算法分割成子词。词汇表大小为 32768。使用了 fugashi 和 unidic-lite 包进行分词。

训练

模型的训练配置与原始 BERT 相同，每个实例 512 个标记，每个批次 256 个实例，训练步数为 100 万步。在训练掩码语言模型（MLM）目标时，引入了全词掩码，即一次性掩码对应单个单词（由 MeCab 分词）的所有子词标记。每个模型的训练使用了 TensorFlow Research Cloud 计划提供的 v3 - 8 实例的 Cloud TPU，训练大约需要 5 天完成。