roberta-base-japanese-with-auto-jumanppオープンソース日本語モデル - 自動形態素解析で自然言語処理を支援する

ホーム

Roberta Base Japanese With Auto Jumanpp

nlp-wasedaによって開発

RoBERTaアーキテクチャに基づく日本語事前学習モデルで、自動Juman++形態素解析をサポートし、日本語自然言語処理タスクに適しています。

大規模言語モデル

Transformers

日本語#日本語マスク言語モデル #Juman++自動形態素解析 #ウィキペディア事前学習

ダウンロード数 536

リリース時間 : 10/15/2022

モデル概要

これは日本語RoBERTaに基づくベースモデルで、日本語ウィキペディアとCC-100の日本語部分から事前学習されており、マスク言語モデリングと下流タスクのファインチューニングをサポートします。

モデル特徴

自動Juman++形態素解析サポート

BertJapaneseTokenizerがJuman++の自動形態素解析をサポートし、日本語テキスト処理のワークフローを簡素化します。

大規模事前学習データ

モデルは日本語ウィキペディアとCC-100の日本語部分で訓練されており、広範な日本語言語特性をカバーしています。

最適化された訓練プロセス

8台のNVIDIA A100 GPUで1週間訓練し、先進的な訓練戦略とハイパーパラメータ設定を採用しています。

モデル能力

日本語テキスト理解

マスク言語モデリング

下流タスクのファインチューニング

使用事例

自然言語処理

テキスト補完

マスク言語モデリング機能を使用して日本語文章の欠落部分を補完する

テキスト分類

モデルをファインチューニングして日本語テキスト分類タスクを実現する

🚀 nlp-waseda/roberta-base-japanese-with-auto-jumanpp

このモデルは、日本語のWikipediaとCC - 100の日本語部分を用いて事前学習された日本語RoBERTaベースモデルです。自然言語処理の様々なタスクに利用できます。

🚀 クイックスタート

このモデルをマスク言語モデリングに使用することができます。以下に使用例を示します。

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大学で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

また、このモデルは下流タスクでのファインチューニングも可能です。

✨ 主な機能

日本語のWikipediaとCC - 100の日本語部分を用いた事前学習により、日本語の自然言語処理タスクに適しています。
BertJapaneseTokenizerがJuman++の自動トークン化をサポートしています。

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/roberta-base-japanese-with-auto-jumanpp")

sentence = '早稲田大学で自然言語処理を[MASK]する。'
encoding = tokenizer(sentence, return_tensors='pt')
...

📚 ドキュメント

トークン化

BertJapaneseTokenizerは現在、Juman++の自動トークン化をサポートしています。ただし、データセットが大きい場合、BertJapaneseTokenizerはまだ高速トークン化をサポートしていないため、時間がかかることがあります。自分でJuman++のトークン化を行い、古いモデルnlp-waseda/roberta-base-japaneseを使用することもできます。

事前学習にはJuman++ 2.0.0 - rc3が使用されました。各単語はsentencepieceによってトークンに分割されます。