japanese - roberta - base開源日語模型 - 免費用於日語文本掩碼語言建模

首頁

Japanese Roberta Base

由rinna開發

由rinna株式會社訓練的基礎尺寸日語RoBERTa模型，適用於日語文本的掩碼語言建模任務。

大型語言模型

Transformers

日語開源協議:MIT #日語掩碼預測 #RoBERTa架構 #大規模預訓練

下載量 9,375

發布時間 : 3/2/2022

模型概述

這是一個基於RoBERTa架構的日語預訓練語言模型，主要用於日語文本的掩碼詞預測任務。

模型特點

日語專用預訓練

專門針對日語文本進行預訓練，優化了日語語言特性

基於RoBERTa架構

採用改進的BERT架構，移除下一句預測任務，使用更大的批次和更多數據進行訓練

SentencePiece分詞

使用基於sentencepiece的分詞器，在日語維基百科上訓練而成

模型能力

掩碼詞預測

日語文本理解

上下文語義分析

使用案例

文本補全

日語文本掩碼詞預測

預測被掩碼的日語詞彙

在示例中準確預測了'オリンピック'等詞彙

語言模型微調

下游NLP任務

可作為基礎模型用於各種日語NLP任務的微調

🚀 日語RoBERTa基礎模型

本項目提供了一個基礎規模的日語RoBERTa模型。該模型由rinna株式會社使用GitHub倉庫rinnakk/japanese-pretrained-models中的代碼進行訓練。

🚀 快速開始

加載模型

from transformers import AutoTokenizer, AutoModelForMaskedLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-roberta-base", use_fast=False)
tokenizer.do_lower_case = True  # 由於分詞器配置加載的一些問題

model = AutoModelForMaskedLM.from_pretrained("rinna/japanese-roberta-base")

使用模型進行掩碼標記預測

⚠️ 重要提示

使用[CLS]：為了讓模型正確編碼句子以預測掩碼標記，務必在句子前添加[CLS]標記，因為模型訓練時使用了該標記。
分詞後使用[MASK]：A) 直接在輸入字符串中輸入[MASK]和B) 分詞後用[MASK]替換標記會產生不同的標記序列，從而導致不同的預測結果。分詞後使用[MASK]更合適（因為這與模型預訓練的方式一致）。不過，Huggingface推理API僅支持在輸入字符串中輸入[MASK]，且預測效果不太穩定。
顯式提供position_ids作為參數：當沒有為Roberta*模型提供position_ids時，Huggingface的transformers會自動構造它，但會從padding_idx而不是0開始（參見問題和Huggingface 實現中的create_position_ids_from_input_ids()函數）。不幸的是，對於rinna/japanese-roberta-base，由於相應分詞器的padding_idx不是0，這樣做無法達到預期效果。因此，請務必自己構造position_ids，並使其從位置ID 0開始。

示例

以下示例展示了我們的模型作為掩碼語言模型的工作方式。注意運行以下代碼示例與運行Huggingface推理API的區別。

# 原始文本
text = "4年に1度オリンピックは開かれる。"

# 前置[CLS]
text = "[CLS]" + text

# 分詞
tokens = tokenizer.tokenize(text)
print(tokens)  # 輸出: ['[CLS]', '▁4', '年に', '1', '度', 'オリンピック', 'は', '開かれる', '。']

# 掩碼一個標記
masked_idx = 5
tokens[masked_idx] = tokenizer.mask_token
print(tokens)  # 輸出: ['[CLS]', '▁4', '年に', '1', '度', '[MASK]', 'は', '開かれる', '。']

# 轉換為ID
token_ids = tokenizer.convert_tokens_to_ids(tokens)
print(token_ids)  # 輸出: [4, 1602, 44, 24, 368, 6, 11, 21583, 8]

# 轉換為張量
import torch
token_tensor = torch.LongTensor([token_ids])

# 顯式提供位置ID
position_ids = list(range(0, token_tensor.size(1)))
print(position_ids)  # 輸出: [0, 1, 2, 3, 4, 5, 6, 7, 8]
position_id_tensor = torch.LongTensor([position_ids])

# 獲取掩碼標記的前10個預測
with torch.no_grad():
    outputs = model(input_ids=token_tensor, position_ids=position_id_tensor)
    predictions = outputs[0][0, masked_idx].topk(10)

for i, index_t in enumerate(predictions.indices):
    index = index_t.item()
    token = tokenizer.convert_ids_to_tokens([index])[0]
    print(i, token)

"""
0 総會
1 サミット
2 ワールドカップ
3 フェスティバル
4 大會
5 オリンピック
6 全國大會
7 黨大會
8 イベント
9 世界選手権
"""

✨ 主要特性

模型架構：這是一個基於Transformer的12層、768隱藏層大小的掩碼語言模型。
訓練數據：模型在日語CC - 100和日語維基百科上進行訓練，以優化掩碼語言建模目標。在8 * V100 GPU上訓練了約15天，在從CC - 100中採樣的開發集上達到了約3.9的困惑度。
分詞方式：模型使用基於sentencepiece的分詞器，詞彙表是使用官方sentencepiece訓練腳本在日語維基百科上訓練得到的。

📚 詳細文檔

模型架構

一個12層、768隱藏層大小的基於Transformer的掩碼語言模型。

訓練

該模型在日語CC - 100和日語維基百科上進行訓練，以優化掩碼語言建模目標。在8 * V100 GPU上訓練了約15天，在從CC - 100中採樣的開發集上達到了約3.9的困惑度。

分詞

模型使用基於sentencepiece的分詞器，詞彙表是使用官方sentencepiece訓練腳本在日語維基百科上訓練得到的。

發佈日期

2021年8月25日

引用方式

@misc{rinna-japanese-roberta-base,
    title = {rinna/japanese-roberta-base},
    author = {Zhao, Tianyu and Sawada, Kei},
    url = {https://huggingface.co/rinna/japanese-roberta-base}
}

@inproceedings{sawada2024release,
    title = {Release of Pre-Trained Models for the {J}apanese Language},
    author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
    booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
    month = {5},
    year = {2024},
    pages = {13898--13905},
    url = {https://aclanthology.org/2024.lrec-main.1213},
    note = {\url{https://arxiv.org/abs/2404.01657}}
}