roberta-large-japaneseオープンソース日本語モデル - 無料でデプロイして日本語自然言語処理タスクを支援

ホーム

Roberta Large Japanese

nlp-wasedaによって開発

日本語ウィキペディアとCC-100の日本語部分で事前学習された大型日本語RoBERTaモデルで、日本語自然言語処理タスクに適しています。

大規模言語モデル

Transformers

日本語#日本語事前学習 #マスク言語モデリング #Juman++トークン化

ダウンロード数 227

リリース時間 : 5/10/2022

モデル概要

これは日本語ウィキペディアとCC-100の日本語部分で事前学習された大型日本語RoBERTaモデルで、主に日本語テキストのマスク言語モデリングと下流タスクのファインチューニングに使用されます。

モデル特徴

日本語専用事前学習

日本語テキストに特化して事前学習されており、日本語自然言語処理タスクの性能を最適化しています。

Juman++トークン化サポート

入力テキストは事前にJuman++でトークン化する必要があり、日本語テキストの効率的な処理を保証します。

大規模トレーニングデータ

日本語ウィキペディアとCC-100の日本語部分に基づいてトレーニングされており、広範な日本語コーパスをカバーしています。

高性能ハードウェアでのトレーニング

8台のNVIDIA A100 GPUを使用して2週間トレーニングされ、モデルの高品質を保証しています。

モデル能力

日本語テキスト理解

マスク言語モデリング

下流タスクのファインチューニング

使用事例

自然言語処理

日本語テキスト補完

マスク言語モデリングを使用して日本語テキストの欠落部分を補完します。

下流タスクのファインチューニング

特定の日本語NLPタスク（テキスト分類、固有表現認識など）でモデルをファインチューニングします。

🚀 nlp-waseda/roberta-large-japanese

このモデルは、日本語のWikipediaとCC - 100の日本語部分を用いて事前学習された、日本語用のRoBERTa largeモデルです。自然言語処理タスクに役立ちます。

🚀 クイックスタート

このモデルをマスク言語モデリングに使用するには、以下のようにします。また、下流タスクで微調整することも可能です。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-large-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-large-japanese")

sentence = '早稲田 大学 で 自然 言語 処理 を [MASK] する 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

📚 ドキュメント

トークナイゼーション

入力テキストは、事前にJuman++で単語に分割する必要があります。事前学習にはJuman++ 2.0.0 - rc3が使用されました。各単語は、sentencepieceによってトークンにトークナイズされます。

BertJapaneseTokenizerは現在、自動的なJumanppTokenizerとSentencepieceTokenizerをサポートしています。データの前処理を一切行わずに、このモデルを使用することができます。

語彙

語彙は、単語（JumanDIC）とsentencepieceのユニグラム言語モデルによって誘導されたサブワードを含む32000個のトークンで構成されています。

学習手順

このモデルは、日本語のWikipedia（2021年9月20日時点）とCC - 100の日本語部分で学習されました。8台のNVIDIA A100 GPUを使用して2週間かかりました。

事前学習中に使用されたハイパーパラメータは以下の通りです。

属性	详情
学習率	6e-5
デバイスごとの学習バッチサイズ	103
分散タイプ	multi - GPU
デバイス数	8
勾配累積ステップ	5
総学習バッチサイズ	4120
最大シーケンス長	128
オプティマイザ	betas=(0.9,0.98) かつ epsilon=1e - 6 のAdam
学習率スケジューラタイプ	linear
学習ステップ数	670000
ウォームアップステップ数	10000
混合精度学習	Native AMP