t5-base-nl36-finnishオープンソースモデル - フィンランド語の事前学習、微調整後は下流タスクに適用可能

T5 Base Nl36 Finnish

Finnish-NLPによって開発

フィンランド語で事前学習されたT5モデルで、スパンベースのマスク言語モデリング目標を採用しており、下流タスク用にファインチューニングが必要

大規模言語モデルその他オープンソースライセンス:Apache-2.0 #フィンランド語テキスト生成 #深層ナローアーキテクチャ #クロスタスクファインチューニング

ダウンロード数 19

リリース時間 : 4/15/2022

モデル概要

これは大量のフィンランド語コーパスで自己監督方式で事前学習されたT5モデルで、エンコーダ-デコーダアーキテクチャを採用し、すべてのNLP問題をテキストからテキストへの形式で処理します。モデルは特定のタスク用にファインチューニング後に実際に使用可能です。

モデル特徴

効率的な深層アーキテクチャ

36層トランスフォーマーの深層-ナローアーキテクチャを採用し、標準T5-baseの12層と比べてより優れた性能

改良された事前学習技術

T5 v1.1の改良を使用：GEGLU活性化関数、ドロップアウトなしの事前学習、純粋なMLM目標訓練

高品質な訓練データ

厳密にクリーニングされた76GBのフィンランド語テキストを使用し、ウィキペディア、ニュースなど多様なソースを含む

モデル能力

テキスト生成

テキスト変換

シーケンス・ツー・シーケンスタスク

使用事例

テキスト処理

大文字小文字と句読点修正

ファインチューニング後にフィンランド語テキストの大文字小文字と句読点エラーを自動修正

Finnish-NLP/t5-small-nl24-casing-punctuation-correctionモデルを参照

テキスト分類

ニュース分類

Yleニュースデータセットでファインチューニング後94.4%の精度達成

同パラメータ規模の多言語mT5モデルを上回る

🚀 フィンランド語用T5-base-nl36

このモデルは、フィンランド語に特化した事前学習済みT5モデルで、スパンベースのマスク言語モデリング（MLM）を目的として学習されています。T5は、この論文で紹介され、このページで最初に公開されました。

⚠️ 重要提示

Hugging Faceの推論ウィジェットは無効になっています。このモデルは、実際のダウンストリームタスクで使用するために、特定のダウンストリームタスクでのテキスト-to-テキストの微調整が必要です。微調整されたフィンランド語のT5モデルの例として、Finnish-NLP/t5-small-nl24-casing-punctuation-correctionを参照できます。このモデルは、フィンランド語のテキストの大文字小文字や句読点の欠落を修正するように微調整されています。

✨ 主な機能

T5はエンコーダ-デコーダモデルで、すべての自然言語処理問題をテキスト-to-テキスト形式で扱います。フィンランド語版のT5は、非常に大規模なフィンランド語コーパスで自己教師付き学習により事前学習されたトランスフォーマーモデルです。つまり、人間によるラベル付けなしで生のテキストのみを使用し、自動的なプロセスで入力と出力を生成して学習しています。

具体的には、スパンベースのマスク言語モデリング（MLM）を目的として事前学習されています。入力シーケンスの一部がいわゆるセンチネルトークン（独自のマスクトークン）でマスクされ、出力シーケンスは同じセンチネルトークンと実際のマスクされたトークンの連結として形成されます。これにより、モデルはフィンランド語の内部表現を学習します。

このモデルは、事前学習時に元のT5モデルに比べてT5 v1.1の改良点を採用しています。

フィードフォワード隠れ層ではReLUではなくGEGLU活性化関数を使用 - こちらを参照
事前学習時にドロップアウトをオフにしています（品質向上）。微調整時にはドロップアウトを再有効にする必要があります。
ダウンストリームタスクを混ぜずに、スパンベースのマスク言語モデリング（MLM）のみを目的として事前学習
埋め込み層と分類器層の間でパラメータを共有しない

また、この論文で提示された「効率的な」T5アーキテクチャの知見も活用しています。簡単に言うと、同じパラメータ数の他のモデルアーキテクチャと比較して、Deep-Narrowモデルアーキテクチャがダウンストリーム性能に有利であることが示されています。具体的には、モデルの深さは、順次積み重ねられたトランスフォーマーブロックの数として定義されます。

このモデルは、t5-efficient-base-nl36アーキテクチャの層の深さを使用しており、エンコーダとデコーダの両方が36層のトランスフォーマー層を持ち、元のT5「base」モデルの12層のアーキテクチャとは異なります。

合計で、このモデルは8億1400万個のパラメータを持っています。

📦 インストール

このモデルを使用するには、Hugging Faceのtransformersライブラリをインストールする必要があります。以下に、PyTorchとTensorFlowでの使用例を示します。

💻 使用例

基本的な使用法

# PyTorchでの使用例
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")
model = T5ForConditionalGeneration.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")

# TensorFlowでの使用例
from transformers import T5Tokenizer, TFT5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")
model = T5ForConditionalGeneration.from_pretrained("Finnish-NLP/t5-base-nl36-finnish", from_pt=True)

📚 ドキュメント

想定される使用法と制限

このモデルは自己教師付き学習のみで事前学習されており、教師付き学習は行われていません。したがって、このモデルは、Googleの元のT5モデルとは異なり、テキスト分類などのダウンストリームタスクで使用する前に微調整する必要があります。

⚠️ 重要提示

これらのT5モデルを微調整する際には、混合精度ではなく、fp32の完全な精度で微調整する必要があります。微調整のヒントは、こちらなどで見つけることができます。

制限とバイアス

このモデルの学習データには、インターネットから収集された多くの未フィルタリングのコンテンツが含まれており、中立性に欠ける可能性があります。したがって、このモデルの予測にはバイアスが含まれる可能性があり、このバイアスはすべての微調整バージョンのモデルにも影響を及ぼします。

学習データ

このフィンランド語用T5モデルは、6つのデータセットを組み合わせて事前学習されています。

mc4_fi_cleaned：mC4データセットは、Common Crawlのウェブクロールコーパスの多言語版で、クリーニングされたものです。このモデルでは、mC4データセットのフィンランド語サブセットを使用し、独自のテキストデータクリーニングコードでさらにクリーニングしています（データセットのリポジトリを参照）。
wikipedia：2021年8月のフィンランド語版Wikipediaデータセットを使用しています。
Yle Finnish News Archive 2011 - 2018
Yle Finnish News Archive 2019 - 2020
Finnish News Agency Archive (STT)
The Suomi24 Sentences Corpus

生データセットは自動的にクリーニングされ、低品質や非フィンランド語の例が除外されました。また、非常にクリーンなフィンランド語テキストのみで学習されたKenLMモデルを使用して、すべてのテキストのパープレキシティスコアを計算しました。このパープレキシティスコアを使用して、テキストに含まれるフィンランド語の「クリーンさ」を判断することができます。最後に、すべてのデータセットを連結し、上位90％のパープレキシティスコアをフィルタリングの閾値として使用し、最も品質の低い10％のテキストを除外しました。これらのクリーニングされたデータセットは合計で約76GBのテキストになります。

学習手順

前処理

テキストはWordPieceを使用してトークン化され、語彙サイズは32000です。入力と出力は、512トークンの連続したシーケンスです。テキストは小文字に変換されないため、このモデルは大文字小文字を区別します。

事前学習

このモデルは、Google TPU Research Cloudから提供されたTPUv3 - 8 VM上で、バッチサイズ64で100万ステップ（合計330億トークン）学習されました。最適化アルゴリズムにはAdaFactorを使用し、学習率は最初の1万ステップでウォームアップして1e - 2の一定の学習率とし、その後は逆平方根減衰（指数関数的減衰）を適用しました。

学習コードは、GoogleのJax/Flaxベースのt5xフレームワークを使用しており、一部のt5xタスク定義はPerのt5x作業から適応されています。

評価結果

評価は、2つの異なるラベル付きフィンランド語データセット、Yle NewsとEduskuntaを使用して、ダウンストリームのテキスト分類タスクでモデルを微調整して行われました。分類の微調整は、シーケンス長128トークンで行われました。

これらのデータセットで微調整した場合、このモデル（表の6行目）は、他のT5モデルとそのパラメータ数と比較して、以下の精度結果を達成しています。

モデル名	モデルパラメータ数	Yle News精度	Eduskunta精度
Finnish-NLP/t5-tiny-nl6-finnish	3100万	92.80	69.07
Finnish-NLP/t5-mini-nl8-finnish	7200万	93.89	71.43
Finnish-NLP/t5-small-nl16-finnish	1億8400万	94.46	74.00
Finnish-NLP/t5-small-nl24-finnish	2億6000万	94.68	74.90
Finnish-NLP/byt5-base-finnish	5億8200万	92.33	73.13
Finnish-NLP/t5-base-nl36-finnish	8億1400万	94.40	75.97
Finnish-NLP/t5-large-nl36-finnish	14億2500万	94.17	73.50