roberta-base-japaneseオープンソースの日本語事前学習モデル - 多源データを活用して日本語アプリケーションをサポート

ホーム

Roberta Base Japanese

nlp-wasedaによって開発

日本語RoBERTaに基づく事前学習モデルで、学習データには日本語ウィキペディアとCC-100の日本語部分が含まれています。

大規模言語モデル

Transformers

日本語#日本語事前学習 #Juman++形態素解析 #マスク言語モデリング

ダウンロード数 456

リリース時間 : 3/2/2022

モデル概要

これはRoBERTaアーキテクチャに基づく日本語事前学習モデルで、主に日本語テキストのマスク言語モデリングタスクに使用されます。モデルは大規模な日本語コーパスで学習され、様々な日本語自然言語処理タスクに適しています。

モデル特徴

日本語専用事前学習

日本語に特化して事前学習され、日本語ウィキペディアとCC-100の日本語部分を学習データとして使用しています。

Juman++形態素解析サポート

入力テキストはJuman++で形態素解析する必要があり、日本語テキストの最適な処理結果を保証します。

大規模語彙表

32000個のトークンを含み、JumanDIC語彙とsentencepieceで生成されたサブワードが組み合わされています。

効率的な学習

8台のNVIDIA A100 GPUを使用して1週間で学習を完了し、様々な最適化技術を採用しています。

モデル能力

日本語テキスト理解

マスク言語予測

下流タスクの微調整

使用事例

自然言語処理

テキスト補完

文章中のマスク記号[MASK]で置き換えられた単語を予測します。

日本語テキストの欠落した単語を正確に予測できます。

テキスト分類

微調整により、感情分析、トピック分類などのタスクに使用できます。

固有表現認識

微調整により、日本語テキストの人名、地名などの固有表現を認識できます。

🚀 nlp-waseda/roberta-base-japanese

このモデルは、日本語版WikipediaとCC - 100の日本語部分を用いて事前学習された日本語RoBERTaベースモデルです。自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このモデルをマスク言語モデリングに使用することができます。以下に使用例を示します。

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese")

sentence = '早稲田 大学 で 自然 言語 処理 を [MASK] する 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

このモデルは下流タスクでのファインチューニングも可能です。

✨ 主な機能

マスク言語モデリングに対応
下流タスクでのファインチューニングが可能

📦 インストール

このモデルはHugging FaceのTransformersライブラリを通じて簡単に利用できます。以下のコマンドでライブラリをインストールできます。

pip install transformers

📚 ドキュメント

トークナイゼーション

入力テキストは事前にJuman++で単語に分割する必要があります。事前学習にはJuman++ 2.0.0 - rc3が使用されました。各単語はsentencepieceによってトークンに分割されます。

BertJapaneseTokenizerは現在、自動的なJumanppTokenizerとSentencepieceTokenizerをサポートしています。データの前処理を行わずにthis modelを使用することができます。

語彙

語彙は、単語（JumanDIC）とsentencepieceのユニグラム言語モデルによって誘導されたサブワードを含む32000個のトークンで構成されています。

学習手順

このモデルは、日本語版Wikipedia（20210920時点）とCC - 100の日本語部分で学習されました。8台のNVIDIA A100 GPUを使用して1週間かかりました。

事前学習中に使用されたハイパーパラメータは以下の通りです。

ハイパーパラメータ	値
learning_rate	1e - 4
per_device_train_batch_size	256
distributed_type	multi - GPU
num_devices	8
gradient_accumulation_steps	2
total_train_batch_size	4096
max_seq_length	128
optimizer	Adam (betas=(0.9,0.999), epsilon=1e - 08)
lr_scheduler_type	linear
training_steps	700000
warmup_steps	10000
mixed_precision_training	Native AMP