🚀 t5-base-dutch
このモデルは、HuggingFaceによって主催され、GoogleがTPUの使用を支援したHugging Face community weekの期間中に、Yeb Havinga と Dat Nguyen によって、Pre-train T5 from scratch in Dutch プロジェクトの一環として作成されました。また、このモデルをベースに微調整された t5-base-dutch-demo モデルと、デモアプリケーション Netherformer 📰 も参照してください。
2022年1月5日: モデルが更新されました。評価精度が0.64から0.70に向上しました。
2022年1月11日: 評価精度0.78の yhavinga/t5-v1.1-base-dutch-cased も参照してください。
この t5 モデルは 222M のパラメータを持っています。これは、データセット mc4_nl_cleaned
の設定 full
を使用して、マスク付き言語モデリング(ノイズ除去トークンスパン破損)の目的で、シーケンス長 512、バッチサイズ 128、合計 527500 ステップ(35B トークン)、1 エポック、2日9時間 の期間で事前学習されました。事前学習の評価損失と精度はそれぞれ 1.38 と 0.70 です。要約と翻訳における事前学習モデルの比較については、以下の評価セクションを参照してください。
- 事前学習されたT5モデルは、下流タスクで使用する前に微調整する必要があります。そのため、右側の推論ウィジェットはオフになっています。
- オランダ語のCNN要約モデルのデモについては、Netherformer 📰 の例アプリケーションを参照してください!
T5アーキテクチャと設定に関する詳細情報については、元のT5論文とScale Efficiently論文を参照してください。ただし、このモデル(t5-base-dutch)はこれらのプロジェクトとは関係がなく、「公式」のチェックポイントではないことに注意してください。
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer by Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu.
- Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers by Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler.
✨ 主な機能
- オランダ語での事前学習が行われたT5モデルで、要約や翻訳などの下流タスクに利用可能。
- 特定の前処理を施したクリーンなオランダ語データセットで訓練されている。
📦 インストール
READMEにインストール手順が記載されていないため、このセクションは省略されました。
💻 使用例
READMEにコード例が記載されていないため、このセクションは省略されました。
📚 ドキュメント
Tokenizer
このモデルは、Nmt, NFKC, Replace multi-space to single-space
正規化器で構成された大文字小文字を区別するSentencePieceトークナイザーを使用しており、32003個のトークンを持っています。これは、Huggingface TransformersのFlax examplesのスクリプトを使用して、オランダ語のmc4で訓練されました。詳細については、./raw/main/tokenizer.json を参照してください。
Dataset(s)
以下に挙げるすべてのモデルは、cleaned Dutch mC4 で事前学習されています。これは、元のmC4から以下のような前処理を施したものです。
- オランダ語と英語の List of Dirty Naught Obscene and Otherwise Bad Words から選択された単語を含む文書は削除されました。
- 3語未満の文は削除されました。
- 1000文字以上の単語を含む文は削除されました。
- 5文未満の文書は削除されました。
- "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", "use cookies", "elementen ontbreken", "deze printversie" を含む文書は削除されました。
オランダ語と英語のモデルは、オランダ語のmC4と英語のC4を50/50%の割合で混合したデータセットで事前学習されています。翻訳モデルは、CCMatrix で微調整されています。
Dutch T5 Models
オランダ語のT5モデルは3種類が訓練されています (ブログ)。t5-base-dutch
は、元のT5設定を持つ唯一のモデルです。他のモデルタイプであるt5-v1.1とt5-effは、活性化関数として relu
の代わりに gated-relu
を使用しており、学習が発散しない限り(t5-v1.1-large-dutch-cased
)、ドロップアウト率 0.0
で訓練されています。T5-effモデルは、レイヤー数が異なるモデルです。以下の表に、これらのモデルのいくつかの次元を示します。すべてのt5-effモデルが効率的であるわけではなく、最も良い例は非効率な t5-xl-4L-dutch-english-cased
です。
|
t5-base-dutch |
t5-v1.1-base-dutch-uncased |
t5-v1.1-base-dutch-cased |
t5-v1.1-large-dutch-cased |
t5-v1_1-base-dutch-english-cased |
t5-v1_1-base-dutch-english-cased-1024 |
t5-small-24L-dutch-english |
t5-xl-4L-dutch-english-cased |
t5-base-36L-dutch-english-cased |
t5-eff-xl-8l-dutch-english-cased |
t5-eff-large-8l-dutch-english-cased |
type |
t5 |
t5-v1.1 |
t5-v1.1 |
t5-v1.1 |
t5-v1.1 |
t5-v1.1 |
t5 eff |
t5 eff |
t5 eff |
t5 eff |
t5 eff |
d_model |
768 |
768 |
768 |
1024 |
768 |
768 |
512 |
2048 |
768 |
1024 |
1024 |
d_ff |
3072 |
2048 |
2048 |
2816 |
2048 |
2048 |
1920 |
5120 |
2560 |
16384 |
4096 |
num_heads |
12 |
12 |
12 |
16 |
12 |
12 |
8 |
32 |
12 |
32 |
16 |
d_kv |
64 |
64 |
64 |
64 |
64 |
64 |
64 |
64 |
64 |
128 |
64 |
num_layers |
12 |
12 |
12 |
24 |
12 |
12 |
24 |
4 |
36 |
8 |
8 |
num parameters |
223M |
248M |
248M |
783M |
248M |
248M |
250M |
585M |
729M |
1241M |
335M |
feed_forward_proj |
relu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
gated-gelu |
dropout |
0.1 |
0.0 |
0.0 |
0.1 |
0.0 |
0.0 |
0.0 |
0.1 |
0.0 |
0.0 |
0.0 |
dataset |
mc4_nl_cleaned |
mc4_nl_cleaned full |
mc4_nl_cleaned full |
mc4_nl_cleaned |
mc4_nl_cleaned small_en_nl |
mc4_nl_cleaned large_en_nl |
mc4_nl_cleaned large_en_nl |
mc4_nl_cleaned large_en_nl |
mc4_nl_cleaned large_en_nl |
mc4_nl_cleaned large_en_nl |
mc4_nl_cleaned large_en_nl |
tr. seq len |
512 |
1024 |
1024 |
512 |
512 |
1024 |
512 |
512 |
512 |
512 |
512 |
batch size |
128 |
64 |
64 |
64 |
128 |
64 |
128 |
512 |
512 |
64 |
128 |
total steps |
527500 |
1014525 |
1210154 |
1120k/2427498 |
2839630 |
1520k/3397024 |
851852 |
212963 |
212963 |
538k/1703705 |
851850 |
epochs |
1 |
2 |
2 |
2 |
10 |
4 |
1 |
1 |
1 |
1 |
1 |
duration |
2d9h |
5d5h |
6d6h |
8d13h |
11d18h |
9d1h |
4d10h |
6d1h |
17d15h |
4d 19h |
3d 23h |
optimizer |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
adafactor |
lr |
0.005 |
0.005 |
0.005 |
0.005 |
0.005 |
0.005 |
0.005 |
0.005 |
0.009 |
0.005 |
0.005 |
warmup |
10000.0 |
10000.0 |
10000.0 |
10000.0 |
10000.0 |
5000.0 |
20000.0 |
2500.0 |
1000.0 |
1500.0 |
1500.0 |
eval loss |
1.38 |
1.20 |
0.96 |
1.07 |
1.11 |
1.13 |
1.18 |
1.27 |
1.05 |
1.3019 |
1.15 |
eval acc |
0.70 |
0.73 |
0.78 |
0.76 |
0.75 |
0.74 |
0.74 |
0.72 |
0.76 |
0.71 |
0.74 |
Evaluation
上記のリストのほとんどのモデルは、要約と翻訳のために微調整されています。以下の図は評価スコアを示しており、x軸は翻訳のBleuスコア(高い方が良い)、y軸は要約のRouge1翻訳スコア(高い方が良い)を示しています。点のサイズはモデルのサイズに比例しています。推論速度が速いモデルは緑色で、遅いモデルは青色でプロットされています。

評価は、以下の設定で訓練された微調整モデルで実行されました。
|
Summarization |
Translation |
Dataset |
CNN Dailymail NL |
CCMatrix en -> nl |
#train samples |
50K |
50K |
Optimizer |
Adam |
Adam |
learning rate |
0.001 |
0.0005 |
source length |
1024 |
128 |
target length |
142 |
128 |
label smoothing |
0.05 |
0.1 |
#eval samples |
1000 |
1000 |
🔧 技術詳細
READMEに技術的な詳細説明が十分に記載されていないため、このセクションは省略されました。
📄 ライセンス
このモデルは apache-2.0
ライセンスの下で提供されています。