🚀 イタリア語T5 Base (Oscar) 🇮🇹
このリポジトリには、以前は gsarti/t5-base-it
として知られていたモデルが含まれています。
IT5 モデルファミリーは、オリジナルの T5モデル が採用したアプローチに従って、イタリア語用の大規模シーケンス-to-シーケンストランスフォーマーモデルを事前学習する最初の試みです。
このモデルは、Gabriele Sarti による "IT5: Large-Scale Text-to-Text Pretraining for Italian Language Understanding and Generation" (公開予定)プロジェクトの一部として、Huggingface の支援を受け、Googleの TPU Research Cloud によるTPU使用のスポンサーシップを得て公開されています。すべてのトレーニングは、Google Cloud上の単一のTPU3v8-VMマシンで行われました。トレーニングプロセスの概要については、リポジトリのTensorboardタブを参照してください。
推論ウィジェットは無効になっています。これは、モデルを実際に使用するには、下流タスクに対するタスク固有のseq2seqファインチューニングが必要だからです。モデル gsarti/it5-base-nli
は、下流のNLIタスクでファインチューニングされたこのモデルの例を提供しています。
🚀 クイックスタート
モデルの使用方法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
注意: モデルを使用するには、下流のseq2seqタスクでファインチューニングする必要があります。例を こちら で確認できます。
FlaxとTensorflowバージョンのモデルも利用可能です。
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
✨ 主な機能
このリポジトリには、OSCARコーパス を使用して訓練された base
バージョンのモデルのチェックポイントが含まれています。モデル t5-base
の元の構成が採用されていますが、事前学習中のパラメータ dropout_rate
は、t5-v1.1
の実装に従って 0
に設定されています(元は 0.1
)。トークナイザーは、mC4
コーパスのイタリア語部分の最初の200万文で訓練された SentencePieceUnigramTokenizer
です。Thoroughly Cleaned Italian mC4 Corpus (約410億単語、約275GB)で訓練された改良版のモデルも、gsarti/it5-base
という名前で利用可能です。トレーニング手順は Github で公開されています。
モデルのバリエーション
以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。
項目 |
it5-small |
it5-base |
it5-large |
it5-base-oscar (このモデル) |
dataset |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
architecture |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
learning rate |
5e-3 |
5e-3 |
5e-3 |
1e-2 |
steps |
1,050,000 |
1,050,000 |
2,100,000 |
258,000 |
training time |
36時間 |
101時間 |
370時間 |
98時間 |
ff projection |
gated-gelu |
gated-gelu |
gated-gelu |
relu |
tie embeds |
false |
false |
false |
true |
optimizer |
adafactor |
adafactor |
adafactor |
adafactor |
max seq. length |
512 |
512 |
512 |
512 |
per-device batch size |
16 |
16 |
8 |
16 |
tot. batch size |
128 |
128 |
64 |
128 |
weigth decay |
1e-3 |
1e-3 |
1e-2 |
1e-3 |
validation split size |
15,000例 |
15,000例 |
15,000例 |
15,000例 |
it5-base-oscar
のトレーニング時間が長かったのは、トレーニングスクリプトのバグ が原因でした。
個々のモデルパラメータのリストについては、それぞれのリポジトリの config.json
ファイルを参照してください。
🔧 技術詳細
IT5モデルはウェブスクレイピングされたコーパスで訓練されているため、その使用により、データに事前に存在するバイアスが再現および拡大される可能性があります。これにより、人種や性別の固定観念や陰謀論的な見解など、潜在的に有害なコンテンツが生成される可能性があります。そのため、このようなバイアスの研究が明確に奨励されており、理想的にはモデルの使用は研究目的で、ユーザーに直接公開しない取り組みに限定すべきです。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で公開されています。
📚 クレジット
このモデルに関する問題や更新については、gabriele.sarti996@gmail.com までご連絡ください。
📚 引用情報
@article{sarti-nissim-2022-it5,
title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}