bigbird-base-japaneseオープンソース日本語モデル - 長シーケンス処理タスクに無料で使用可能

ホーム

Bigbird Base Japanese

nlp-wasedaによって開発

日本語ウィキペディア、CC-100、OSCARデータセットで事前学習された日本語BigBirdモデルで、長文処理タスクに適しています。

大規模言語モデル

Transformers

日本語#日本語長文処理 #BigBirdアーキテクチャ #Juman++形態素解析

ダウンロード数 38

リリース時間 : 6/3/2023

モデル概要

これは日本語ウィキペディア、CC-100日本語部分、OSCAR日本語部分で事前学習された日本語BigBirdベースモデルで、主にマスク言語モデリングと下流タスクのファインチューニングに使用されます。

モデル特徴

長文処理

最大4096長のシーケンス処理をサポートし、長文タスクに適しています。

効率的な事前学習

NVIDIA A100 GPU 16台とDeepSpeed最適化を使用し、高い学習効率を実現。

専門的な形態素解析

入力テキストにはJuman++を使用した専門的な形態素解析が必要で、言語処理の正確性を確保します。

モデル能力

日本語テキスト理解

マスク言語モデリング

長文処理

下流タスクのファインチューニング

使用事例

テキスト分類

感情分析

日本語テキストの感情傾向を分類

MARC-jaタスクで精度0.959を達成

意味的類似性

文類似度計算

2つの日本語文の意味的類似度を計算

JSTSタスクでピアソン係数0.888を達成

質問応答システム

日本語読解

与えられたテキストに基づいて日本語の質問に回答

JSQuADタスクでF1値0.933を達成

🚀 nlp-waseda/bigbird-base-japanese

このモデルは、日本語のWikipedia、CC - 100の日本語部分、およびOSCARの日本語部分で事前学習された日本語のBigBirdベースモデルです。長い文章を扱う自然言語処理タスクに役立ちます。

🚀 クイックスタート

このモデルをマスク言語モデリングに使用するには、以下のようにします。

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

このモデルは下流タスクでファインチューニングすることもできます。

✨ 主な機能

日本語のWikipedia、CC - 100、OSCARの日本語部分を用いて事前学習されています。
マスク言語モデリングや下流タスクのファインチューニングに利用可能です。

📦 インストール

このモデルはtransformersライブラリを通じて簡単に利用できます。以下のコードでトークナイザーとモデルをロードできます。

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

💻 使用例

基本的な使用法

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nlp-waseda/bigbird-base-japanese")
model = AutoModelForMaskedLM.from_pretrained("nlp-waseda/bigbird-base-japanese")

sentence = '[MASK] 大学 で 自然 言語 処理 を 学ぶ 。' # input should be segmented into words by Juman++ in advance
encoding = tokenizer(sentence, return_tensors='pt')
...

高度な使用法

このモデルは下流タスクでのファインチューニングにも利用できます。具体的なファインチューニングの手順は、使用するタスクに応じて異なります。

📚 ドキュメント

トークナイゼーション

入力テキストは、事前にJuman++で単語に分割する必要があります。事前学習にはJuman++ 2.0.0 - rc3が使用されました。各単語はsentencepieceによってトークンにトークナイズされます。

語彙

語彙は、単語（JumanDIC）とsentencepieceのユニグラム言語モデルによって誘導されたサブワードを含む32000個のトークンで構成されています。

学習手順

このモデルは、日本語のWikipedia（20221101時点）、CC - 100の日本語部分、およびOSCARの日本語部分で学習されました。transformersとDeepSpeedを使用して、16台のNVIDIA A100 GPUで2週間かけて学習が行われました。

事前学習中に使用されたハイパーパラメータは以下の通りです。

ハイパーパラメータ	値
learning_rate	1e - 4
per_device_train_batch_size	6
gradient_accumulation_steps	2
total_train_batch_size	192
max_seq_length	4096
training_steps	600000
warmup_steps	6000
bf16	true
deepspeed	ds_config.json

JGLUEでの性能

以下のモデルをファインチューニングし、JGLUEの開発セットで評価しました。各モデルとタスクに対して、JGLUE論文に従って学習率と学習エポック数を調整しました。

MARC - ja以外のタスクでは、最大長が短いため、attention_typeを"original_full"に設定してファインチューニングを行いました。MARC - jaでは、"block_sparse"と"original_full"の両方を使用しました。

モデル	MARC - ja/acc	JSTS/pearson	JSTS/spearman	JNLI/acc	JSQuAD/EM	JSQuAD/F1	JComQA/acc
Waseda RoBERTa base	0.965	0.913	0.876	0.905	0.853	0.916	0.853
Waseda RoBERTa large (seq512)	0.969	0.925	0.890	0.928	0.910	0.955	0.900
BigBird base (original_full)	0.959	0.888	0.846	0.896	0.884	0.933	0.787
BigBird base (block_sparse)	0.959	-	-	-	-	-	-