japanese - roberta - base开源日语模型 - 免费用于日语文本掩码语言建模

首页

Japanese Roberta Base

由 rinna 开发

由rinna株式会社训练的基础尺寸日语RoBERTa模型，适用于日语文本的掩码语言建模任务。

大型语言模型

Transformers

日语开源协议:MIT #日语掩码预测 #RoBERTa架构 #大规模预训练

下载量 9,375

发布时间 : 3/2/2022

模型简介

这是一个基于RoBERTa架构的日语预训练语言模型，主要用于日语文本的掩码词预测任务。

模型特点

日语专用预训练

专门针对日语文本进行预训练，优化了日语语言特性

基于RoBERTa架构

采用改进的BERT架构，移除下一句预测任务，使用更大的批次和更多数据进行训练

SentencePiece分词

使用基于sentencepiece的分词器，在日语维基百科上训练而成

模型能力

掩码词预测

日语文本理解

上下文语义分析

使用案例

文本补全

日语文本掩码词预测

预测被掩码的日语词汇

在示例中准确预测了'オリンピック'等词汇

语言模型微调

下游NLP任务

可作为基础模型用于各种日语NLP任务的微调

🚀 日语RoBERTa基础模型

本项目提供了一个基础规模的日语RoBERTa模型。该模型由rinna株式会社使用GitHub仓库rinnakk/japanese-pretrained-models中的代码进行训练。

🚀 快速开始

加载模型

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-roberta-base", use_fast=False)
tokenizer.do_lower_case = True  # 由于分词器配置加载的一些问题

model = AutoModelForMaskedLM.from_pretrained("rinna/japanese-roberta-base")

使用模型进行掩码标记预测

⚠️ 重要提示

使用[CLS]：为了让模型正确编码句子以预测掩码标记，务必在句子前添加[CLS]标记，因为模型训练时使用了该标记。
分词后使用[MASK]：A) 直接在输入字符串中输入[MASK]和B) 分词后用[MASK]替换标记会产生不同的标记序列，从而导致不同的预测结果。分词后使用[MASK]更合适（因为这与模型预训练的方式一致）。不过，Huggingface推理API仅支持在输入字符串中输入[MASK]，且预测效果不太稳定。
显式提供position_ids作为参数：当没有为Roberta*模型提供position_ids时，Huggingface的transformers会自动构造它，但会从padding_idx而不是0开始（参见问题和Huggingface 实现中的create_position_ids_from_input_ids()函数）。不幸的是，对于rinna/japanese-roberta-base，由于相应分词器的padding_idx不是0，这样做无法达到预期效果。因此，请务必自己构造position_ids，并使其从位置ID 0开始。

示例

以下示例展示了我们的模型作为掩码语言模型的工作方式。注意运行以下代码示例与运行Huggingface推理API的区别。

# 原始文本
text = "4年に1度オリンピックは開かれる。"

# 前置[CLS]
text = "[CLS]" + text

# 分词
tokens = tokenizer.tokenize(text)
print(tokens)  # 输出: ['[CLS]', '▁4', '年に', '1', '度', 'オリンピック', 'は', '開かれる', '。']

# 掩码一个标记
masked_idx = 5
tokens[masked_idx] = tokenizer.mask_token
print(tokens)  # 输出: ['[CLS]', '▁4', '年に', '1', '度', '[MASK]', 'は', '開かれる', '。']

# 转换为ID
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)  # 输出: [4, 1602, 44, 24, 368, 6, 11, 21583, 8]

# 转换为张量
import torch
token_tensor = torch.LongTensor([token_ids])

# 显式提供位置ID
position_ids = list(range(0, token_tensor.size(1)))
print(position_ids)  # 输出: [0, 1, 2, 3, 4, 5, 6, 7, 8]
position_id_tensor = torch.LongTensor([position_ids])

# 获取掩码标记的前10个预测
with torch.no_grad():
    outputs = model(input_ids=token_tensor, position_ids=position_id_tensor)
    predictions = outputs[0][0, masked_idx].topk(10)

for i, index_t in enumerate(predictions.indices):
    index = index_t.item()
    token = tokenizer.convert_ids_to_tokens([index])[0]
    print(i, token)

"""
0 総会
1 サミット
2 ワールドカップ
3 フェスティバル
4 大会
5 オリンピック
6 全国大会
7 党大会
8 イベント
9 世界選手権
"""

✨ 主要特性

模型架构：这是一个基于Transformer的12层、768隐藏层大小的掩码语言模型。
训练数据：模型在日语CC - 100和日语维基百科上进行训练，以优化掩码语言建模目标。在8 * V100 GPU上训练了约15天，在从CC - 100中采样的开发集上达到了约3.9的困惑度。
分词方式：模型使用基于sentencepiece的分词器，词汇表是使用官方sentencepiece训练脚本在日语维基百科上训练得到的。

📚 详细文档

模型架构

一个12层、768隐藏层大小的基于Transformer的掩码语言模型。

训练

该模型在日语CC - 100和日语维基百科上进行训练，以优化掩码语言建模目标。在8 * V100 GPU上训练了约15天，在从CC - 100中采样的开发集上达到了约3.9的困惑度。

分词

模型使用基于sentencepiece的分词器，词汇表是使用官方sentencepiece训练脚本在日语维基百科上训练得到的。

发布日期

2021年8月25日

引用方式

@misc{rinna-japanese-roberta-base,
    title = {rinna/japanese-roberta-base},
    author = {Zhao, Tianyu and Sawada, Kei},
    url = {https://huggingface.co/rinna/japanese-roberta-base}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}