roberta-base-japanese-with-auto-jumanpp开源日语模型

首页

Roberta Base Japanese With Auto Jumanpp

由 nlp-waseda 开发

基于RoBERTa架构的日语预训练模型，支持自动Juman++分词，适用于日语自然语言处理任务。

大型语言模型

Transformers

日语#日语掩码语言模型 #Juman++自动分词 #维基百科预训练

下载量 536

发布时间 : 10/15/2022

模型简介

这是一个基于日语RoBERTa的基础模型，预训练数据来自日语维基百科和CC-100的日语部分，支持掩码语言建模和下游任务微调。

模型特点

自动Juman++分词支持

BertJapaneseTokenizer现在支持对Juman++的自动分词，简化了日语文本处理流程。

大规模预训练数据

模型在日语维基百科和CC-100的日语部分上进行训练，覆盖广泛的日语语言特征。

优化的训练过程

使用8块NVIDIA A100 GPU训练一周，采用先进的训练策略和超参数设置。

模型能力

日语文本理解

掩码语言建模

下游任务微调

使用案例

自然语言处理

文本补全

使用掩码语言建模功能完成日语句子中的缺失部分

文本分类

通过微调模型实现日语文本分类任务

🚀 nlp-waseda/roberta-base-japanese-with-auto-jumanpp

本项目是一个基于日本维基百科和CC - 100日语部分数据预训练的日语RoBERTa基础模型，可用于掩码语言建模等自然语言处理任务。

🚀 快速开始

你可以按如下方式使用该模型进行掩码语言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大学で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

你还可以在下游任务中对该模型进行微调。

✨ 主要特性

数据丰富：基于日本维基百科和CC - 100日语部分数据进行预训练。
支持自动分词：BertJapaneseTokenizer 现在支持 Juman++ 的自动分词。
可微调：能够在下游任务中进行微调。

💻 使用示例

基础用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大学で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

高级用法

# 你可以在下游任务中对该模型进行微调，例如文本分类任务等。
# 以下是一个简单的微调示例框架，需要根据具体任务进行调整。
from transformers import AutoTokenizer, AutoModelForMaskedLM, TrainingArguments, Trainer
import torch

# 加载模型和分词器
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

# 假设这里有训练数据 train_dataset 和验证数据 eval_dataset
# train_dataset 和 eval_dataset 应该是 torch.utils.data.Dataset 类型
# 这里省略了数据准备的具体代码

# 定义训练参数
training_args = TrainingArguments(
    output_dir='./results',          # 输出目录
    num_train_epochs=3,              # 训练轮数
    per_device_train_batch_size=16,  # 每个设备的训练批次大小
    per_device_eval_batch_size=64,   # 每个设备的评估批次大小
    warmup_steps=500,                # 热身步数
    weight_decay=0.01,               # 权重衰减
    logging_dir='./logs',            # 日志目录
    logging_steps=10,
    evaluation_strategy="steps",     # 评估策略
    eval_steps=50,                   # 评估步数
)

# 定义训练器
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 开始训练
trainer.train()

📚 详细文档

分词

BertJapaneseTokenizer 现在支持 Juman++ 的自动分词。不过，如果你的数据集很大，由于 BertJapaneseTokenizer 仍然不支持快速分词，可能会花费较长时间。你也可以自己进行 Juman++ 分词，然后使用旧模型 nlp-waseda/roberta-base-japanese。

预训练时使用了 Juman++ 2.0.0 - rc3。每个单词通过 sentencepiece 被分词为多个标记。

词汇表

词汇表由 32000 个标记组成，包括单词（JumanDIC）和由 sentencepiece 的 unigram 语言模型推导的子词。

训练过程

该模型在日本维基百科（截至 20210920）和 CC - 100 的日语部分上进行训练。使用八个 NVIDIA A100 GPU 训练了一周。

预训练期间使用了以下超参数：

属性	详情
学习率	1e - 4
每个设备的训练批次大小	256
分布式类型	多 GPU
设备数量	8
梯度累积步数	2
总训练批次大小	4096
最大序列长度	128
优化器	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
学习率调度器类型	线性
训练步数	700000
热身步数	10000
混合精度训练	原生 AMP