roberta-large-japaneseオープンソース日本語モデル - 無料でデプロイして日本語自然言語処理タスクを支援

Home

Roberta Large Japanese

Developed by nlp-waseda

日本語ウィキペディアとCC-100の日本語部分で事前学習された大型日本語RoBERTaモデルで、日本語自然言語処理タスクに適しています。

大規模言語モデル

Transformers

Japanese#日本語事前学習 #マスク言語モデリング #Juman++トークン化

Downloads 227

Release Time : 5/10/2022

Model Overview

これは日本語ウィキペディアとCC-100の日本語部分で事前学習された大型日本語RoBERTaモデルで、主に日本語テキストのマスク言語モデリングと下流タスクのファインチューニングに使用されます。

Model Features

日本語専用事前学習

日本語テキストに特化して事前学習されており、日本語自然言語処理タスクの性能を最適化しています。

Juman++トークン化サポート

入力テキストは事前にJuman++でトークン化する必要があり、日本語テキストの効率的な処理を保証します。

大規模トレーニングデータ

日本語ウィキペディアとCC-100の日本語部分に基づいてトレーニングされており、広範な日本語コーパスをカバーしています。

高性能ハードウェアでのトレーニング

8台のNVIDIA A100 GPUを使用して2週間トレーニングされ、モデルの高品質を保証しています。

Model Capabilities

日本語テキスト理解

マスク言語モデリング

下流タスクのファインチューニング

Use Cases

自然言語処理

日本語テキスト補完

マスク言語モデリングを使用して日本語テキストの欠落部分を補完します。

下流タスクのファインチューニング

特定の日本語NLPタスク（テキスト分類、固有表現認識など）でモデルをファインチューニングします。

🚀 nlp-waseda/roberta-large-japanese

このモデルは、日本語のWikipediaとCC - 100の日本語部分を用いて事前学習された、日本語用のRoBERTa largeモデルです。自然言語処理タスクに役立ちます。

🚀 クイックスタート

このモデルをマスク言語モデリングに使用するには、以下のようにします。また、下流タスクで微調整することも可能です。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-large-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-large-japanese")

sentence = '早稲田 大学 で 自然 言語 処理 を [MASK] する 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

📚 ドキュメント

トークナイゼーション

入力テキストは、事前にJuman++で単語に分割する必要があります。事前学習にはJuman++ 2.0.0 - rc3が使用されました。各単語は、sentencepieceによってトークンにトークナイズされます。

BertJapaneseTokenizerは現在、自動的なJumanppTokenizerとSentencepieceTokenizerをサポートしています。データの前処理を一切行わずに、このモデルを使用することができます。

語彙

語彙は、単語（JumanDIC）とsentencepieceのユニグラム言語モデルによって誘導されたサブワードを含む32000個のトークンで構成されています。

学習手順

このモデルは、日本語のWikipedia（2021年9月20日時点）とCC - 100の日本語部分で学習されました。8台のNVIDIA A100 GPUを使用して2週間かかりました。

事前学習中に使用されたハイパーパラメータは以下の通りです。

属性	详情
学習率	6e-5
デバイスごとの学習バッチサイズ	103
分散タイプ	multi - GPU
デバイス数	8
勾配累積ステップ	5
総学習バッチサイズ	4120
最大シーケンス長	128
オプティマイザ	betas=(0.9,0.98) かつ epsilon=1e - 6 のAdam
学習率スケジューラタイプ	linear
学習ステップ数	670000
ウォームアップステップ数	10000
混合精度学習	Native AMP