roberta-base-japanese開源日語預訓練模型 - 依託多源數據助力日語應用

首頁

Roberta Base Japanese

由nlp-waseda開發

基於日語RoBERTa的預訓練模型，訓練數據包括日語維基百科和CC-100的日語部分。

大型語言模型

Transformers

日語#日語預訓練 #Juman++分詞 #掩碼語言建模

下載量 456

發布時間 : 3/2/2022

模型概述

這是一個基於RoBERTa架構的日語預訓練模型，主要用於日語文本的掩碼語言建模任務。模型經過大規模日語語料訓練，適用於各種日語自然語言處理任務。

模型特點

日語專用預訓練

專門針對日語進行預訓練，使用日語維基百科和CC-100日語部分作為訓練數據

Juman++分詞支持

輸入文本需通過Juman++進行分詞處理，確保對日語文本的最佳處理效果

大規模詞彙表

包含32000個標記，結合JumanDIC詞彙和sentencepiece生成的子詞

高效訓練

使用8塊NVIDIA A100 GPU訓練一週完成，採用多種優化技術

模型能力

日語文本理解

掩碼語言預測

下游任務微調

使用案例

自然語言處理

文本補全

預測句子中被掩碼標記[MASK]替換的詞語

能夠準確預測日語文本中的缺失詞語

文本分類

通過微調可用於情感分析、主題分類等任務

命名實體識別

通過微調可識別日語文本中的人名、地名等實體

🚀 nlp-waseda/roberta-base-japanese

這是一個基於日本維基百科和CC - 100日語部分預訓練的日語RoBERTa基礎模型，可用於掩碼語言建模任務，也能在下游任務中進行微調。

🚀 快速開始

你可以按如下方式使用這個模型進行掩碼語言建模：

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese")

sentence = '早稲田 大學 で 自然 言語 処理 を [MASK] する 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

你還可以在下游任務中對該模型進行微調。

✨ 主要特性

分詞處理

輸入文本需要提前使用 Juman++ 進行分詞。預訓練使用的是Juman++ 2.0.0 - rc3版本。每個單詞會通過 sentencepiece 進一步分詞成標記。

BertJapaneseTokenizer 現在支持自動的 JumanppTokenizer 和 SentencepieceTokenizer。你可以使用這個模型而無需進行任何數據預處理。

詞彙表

詞彙表包含32000個標記，其中包括單詞（JumanDIC）和由 sentencepiece 的一元語言模型生成的子詞。

訓練過程

該模型在日本維基百科（截至2021年9月20日）和CC - 100的日語部分上進行訓練。使用8塊NVIDIA A100 GPU訓練了一週。

預訓練期間使用了以下超參數：

學習率：1e - 4
每個設備的訓練批次大小：256
分佈式類型：多GPU
設備數量：8
梯度累積步數：2
總訓練批次大小：4096
最大序列長度：128
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
訓練步數：700000
熱身步數：10000
混合精度訓練：Native AMP

在JGLUE上的性能

請參考JGLUE的基線分數。

📄 許可證

本項目採用CC - BY - SA 4.0許可證。

📦 數據集

維基百科
CC100

📦 掩碼標記

[MASK]

📦 示例文本

{
    "text": "早稲田 大學 で 自然 言語 処理 を [MASK] する 。"
}

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫