t5-base-japaneseオープンソースモデル - 日本語コーパスに基づき、多種のテキスト生成タスクをサポート

ホーム

T5 Base Japanese

sonoisaによって開発

日本語コーパスを用いて事前学習されたT5（テキストからテキストへの変換Transformer）モデルで、様々なテキスト生成タスクに適しています。

大規模言語モデル日本語#日本語テキスト生成 #高精度分類 #ウィキペディア事前学習

ダウンロード数 13.85k

リリース時間 : 3/2/2022

モデル概要

これは日本語コーパスを用いて事前学習されたT5モデルで、主にテキストからテキストへの生成タスクに使用されます。モデルは大規模な日本語コーパスで訓練され、様々な下流タスクの微調整をサポートします。

モデル特徴

高効率性能

多言語T5モデルと比較して、サイズが25%縮小し、精度が約6ポイント向上しています。

大規模事前学習

約100GBの日本語コーパス（ウィキペディア、OSCAR、CC - 100を含む）を用いて事前学習されています。

多タスクサポート

微調整により、分類、質問応答などの様々なテキスト生成タスクをサポートします。

モデル能力

テキスト生成

テキスト分類

質問応答システム

使用事例

ニュース分類

livedoorニュース分類

livedoorニュースコーパスを用いてニュース記事のタイプを予測するタスクです。

精度が97%、F1スコアが0.97です。

質問応答システム

JSQuAD質問応答タスク

JGLUEベンチマークテストのJSQuADタスクで優れた性能を発揮します。

EM = 0.900、F1 = 0.945です。

🚀 日本語T5事前学習済みモデル

このモデルは、日本語コーパスを用いて事前学習されたT5 (Text-to-Text Transfer Transformer) モデルです。大規模コーパスを活用し、特定のタスクに対する高精度な転移学習が期待できます。

🚀 クイックスタート

このモデルは、次の日本語コーパス（約100GB）を用いて事前学習を行ったT5 (Text-to-Text Transfer Transformer) モデルです。

Wikipediaの日本語ダンプデータ (2020年7月6日時点のもの)
OSCARの日本語コーパス
CC-100の日本語コーパス

このモデルは事前学習のみを行なったものであり、特定のタスクに利用するにはファインチューニングする必要があります。
本モデルにも、大規模コーパスを用いた言語モデルにつきまとう、学習データの内容の偏りに由来する偏った（倫理的ではなかったり、有害だったり、バイアスがあったりする）出力結果になる問題が潜在的にあります。この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

⚠️ 重要提示

本モデルには、学習データの内容の偏りに由来する偏った出力結果になる問題が潜在的にあります。この問題が発生しうることを想定した上で、被害が発生しない用途にのみ利用するよう気をつけてください。

SentencePieceトークナイザーの学習には上記Wikipediaの全データを用いました。

💻 使用例

基本的な使用法

転移学習のサンプルコードはこちらをご参照ください。 https://github.com/sonoisa/t5-japanese

📚 ドキュメント

ベンチマーク

livedoorニュース分類タスク

livedoorニュースコーパスを用いたニュース記事のジャンル予測タスクの精度は次の通りです。
Google製多言語T5モデルに比べて、モデルサイズが25%小さく、6ptほど精度が高いです。

日本語T5 (t5-base-japanese, パラメータ数は222M, 再現用コード)

label	precision	recall	f1-score	support
0	0.96	0.94	0.95	130
1	0.98	0.99	0.99	121
2	0.96	0.96	0.96	123
3	0.86	0.91	0.89	82
4	0.96	0.97	0.97	129
5	0.96	0.96	0.96	141
6	0.98	0.98	0.98	127
7	1.00	0.99	1.00	127
8	0.99	0.97	0.98	120
accuracy			0.97	1100
macro avg	0.96	0.96	0.96	1100
weighted avg	0.97	0.97	0.97	1100

比較対象: 多言語T5 (google/mt5-small, パラメータ数は300M)

label	precision	recall	f1-score	support
0	0.91	0.88	0.90	130
1	0.84	0.93	0.89	121
2	0.93	0.80	0.86	123
3	0.82	0.74	0.78	82
4	0.90	0.95	0.92	129
5	0.89	0.89	0.89	141
6	0.97	0.98	0.97	127
7	0.95	0.98	0.97	127
8	0.93	0.95	0.94	120
accuracy			0.91	1100
macro avg	0.91	0.90	0.90	1100
weighted avg	0.91	0.91	0.91	1100

JGLUEベンチマーク

JGLUEベンチマークの結果は次のとおりです（順次追加）。

MARC-ja: 準備中
JSTS: 準備中
JNLI: 準備中
JSQuAD: EM=0.900, F1=0.945, 再現用コード
JCommonsenseQA: 準備中

免責事項

本モデルの作者は本モデルを作成するにあたって、その内容、機能等について細心の注意を払っておりますが、モデルの出力が正確であるかどうか、安全なものであるか等について保証をするものではなく、何らの責任を負うものではありません。本モデルの利用により、万一、利用者に何らかの不都合や損害が発生したとしても、モデルやデータセットの作者や作者の所属組織は何らの責任を負うものではありません。利用者には本モデルやデータセットの作者や所属組織が責任を負わないことを明確にする義務があります。