roberta-base-japanese-with-auto-jumanpp開源日語模型

首頁

Roberta Base Japanese With Auto Jumanpp

由nlp-waseda開發

基於RoBERTa架構的日語預訓練模型，支持自動Juman++分詞，適用於日語自然語言處理任務。

大型語言模型

Transformers

日語#日語掩碼語言模型 #Juman++自動分詞 #維基百科預訓練

下載量 536

發布時間 : 10/15/2022

模型概述

這是一個基於日語RoBERTa的基礎模型，預訓練數據來自日語維基百科和CC-100的日語部分，支持掩碼語言建模和下游任務微調。

模型特點

自動Juman++分詞支持

BertJapaneseTokenizer現在支持對Juman++的自動分詞，簡化了日語文本處理流程。

大規模預訓練數據

模型在日語維基百科和CC-100的日語部分上進行訓練，覆蓋廣泛的日語語言特徵。

優化的訓練過程

使用8塊NVIDIA A100 GPU訓練一週，採用先進的訓練策略和超參數設置。

模型能力

日語文本理解

掩碼語言建模

下游任務微調

使用案例

自然語言處理

文本補全

使用掩碼語言建模功能完成日語句子中的缺失部分

文本分類

通過微調模型實現日語文本分類任務

🚀 nlp-waseda/roberta-base-japanese-with-auto-jumanpp

本項目是一個基於日本維基百科和CC - 100日語部分數據預訓練的日語RoBERTa基礎模型，可用於掩碼語言建模等自然語言處理任務。

🚀 快速開始

你可以按如下方式使用該模型進行掩碼語言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大學で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

你還可以在下游任務中對該模型進行微調。

✨ 主要特性

數據豐富：基於日本維基百科和CC - 100日語部分數據進行預訓練。
支持自動分詞：BertJapaneseTokenizer 現在支持 Juman++ 的自動分詞。
可微調：能夠在下游任務中進行微調。

💻 使用示例

基礎用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大學で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

高級用法

# 你可以在下游任務中對該模型進行微調，例如文本分類任務等。
# 以下是一個簡單的微調示例框架，需要根據具體任務進行調整。
from transformers import AutoTokenizer, AutoModelForMaskedLM, TrainingArguments, Trainer
import torch

# 加載模型和分詞器
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

# 假設這裡有訓練數據 train_dataset 和驗證數據 eval_dataset
# train_dataset 和 eval_dataset 應該是 torch.utils.data.Dataset 類型
# 這裡省略了數據準備的具體代碼

# 定義訓練參數
training_args = TrainingArguments(
    output_dir='./results',          # 輸出目錄
    num_train_epochs=3,              # 訓練輪數
    per_device_train_batch_size=16,  # 每個設備的訓練批次大小
    per_device_eval_batch_size=64,   # 每個設備的評估批次大小
    warmup_steps=500,                # 熱身步數
    weight_decay=0.01,               # 權重衰減
    logging_dir='./logs',            # 日誌目錄
    logging_steps=10,
    evaluation_strategy="steps",     # 評估策略
    eval_steps=50,                   # 評估步數
)

# 定義訓練器
trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=train_dataset,
    eval_dataset=eval_dataset,
)

# 開始訓練
trainer.train()

📚 詳細文檔

分詞

BertJapaneseTokenizer 現在支持 Juman++ 的自動分詞。不過，如果你的數據集很大，由於 BertJapaneseTokenizer 仍然不支持快速分詞，可能會花費較長時間。你也可以自己進行 Juman++ 分詞，然後使用舊模型 nlp-waseda/roberta-base-japanese。

預訓練時使用了 Juman++ 2.0.0 - rc3。每個單詞通過 sentencepiece 被分詞為多個標記。

詞彙表

詞彙表由 32000 個標記組成，包括單詞（JumanDIC）和由 sentencepiece 的 unigram 語言模型推導的子詞。

訓練過程

該模型在日本維基百科（截至 20210920）和 CC - 100 的日語部分上進行訓練。使用八個 NVIDIA A100 GPU 訓練了一週。

預訓練期間使用了以下超參數：

屬性	詳情
學習率	1e - 4
每個設備的訓練批次大小	256
分佈式類型	多 GPU
設備數量	8
梯度累積步數	2
總訓練批次大小	4096
最大序列長度	128
優化器	Adam（betas=(0.9, 0.999)，epsilon = 1e - 08）
學習率調度器類型	線性
訓練步數	700000
熱身步數	10000
混合精度訓練	原生 AMP