🚀 イタリア語T5小モデル🇮🇹
イタリア語T5(IT5)モデルファミリーは、イタリア語向けに大規模なシーケンスツーシーケンスTransformerモデルの事前学習を行う最初の試みで、元の T5モデル の手法を採用しています。このモデルはイタリア語関連のテキスト処理タスクを解決でき、イタリア語の自然言語処理に有効なツールを提供します。
🚀 クイックスタート
このモデルは、Gabriele Sarti と Malvina Nissim によって発起されたプロジェクト "IT5: Text-to-Text Pretraining for Italian Language Understanding and Generation" の一部で、Huggingface の支援を受け、Googleの TPU Research Cloud からTPUの使用が提供されています。すべてのトレーニングはGoogle Cloudの単一のTPU3v8 - VMマシンで行われまし。トレーニングプロセスの概要は、リポジトリのTensorboardタブを参照できます。
推論ウィジェットは、このモデルが実際に機能するためには下流タスクで特定のシーケンスツーシーケンスの微調整が必要であるため、無効にされています。it5
組織内のモデルは、このモデルを様々な下流タスクで微調整した例を提供しています。
✨ 主な機能
モデルバリエーション
このリポジトリには、モデルの base
バージョンのチェックポイントが含まれています。このモデルは 🤗 Datasets と google/t5 - v1_1 - small
の改良構成を使用し、深度クリーニングされたイタリア語mC4コーパス(約410億語、約275GB)で1エポック(1050000ステップ)トレーニングされています。トレーニングプロセスは [Github](https://github.com/gsarti/t5 - flax - gcp) で確認できます。
以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。
プロパティ |
it5-small (このモデル) |
it5-base |
it5-large |
it5-base-oscar |
データセット |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
アーキテクチャ |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
学習率 |
5e - 3 |
5e - 3 |
5e - 3 |
1e - 2 |
ステップ数 |
1050000 |
1050000 |
2100000 |
258000 |
トレーニング時間 |
36時間 |
101時間 |
370時間 |
98時間 |
フィードフォワード投影 |
gated-gelu |
gated-gelu |
gated-gelu |
relu |
埋め込みのバインディング |
false |
false |
false |
true |
オプティマイザ |
adafactor |
adafactor |
adafactor |
adafactor |
最大シーケンス長 |
512 |
512 |
512 |
512 |
デバイスごとのバッチサイズ |
16 |
16 |
8 |
16 |
総バッチサイズ |
128 |
128 |
64 |
128 |
重み減衰 |
1e - 3 |
1e - 3 |
1e - 2 |
1e - 3 |
検証セット分割サイズ |
15000個のサンプル |
15000個のサンプル |
15000個のサンプル |
15000個のサンプル |
it5-base-oscar
のトレーニング時間が長いのは、トレーニングスクリプトの バグ が原因です。
個々のモデルのパラメータリストについては、それぞれのリポジトリの config.json
ファイルを参照してください。
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("gsarti/it5-small")
model = AutoModelForSeq2SeqLM.from_pretrained("gsarti/it5-small")
注意:このモデルを使用するには、下流のシーケンスツーシーケンスタスクで微調整する必要があります。例は こちら を参照してください。
高度な使用法
FlaxとTensorflowバージョンのモデルも利用可能です。
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-small")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-small")
🔧 技術詳細
IT5モデルはウェブから収集したコーパスでトレーニングされているため、使用するとデータに含まれるバイアスを再現し拡大する可能性があり、人種や性別の固定観念や陰謀論などの潜在的に有害な内容が生成されることがあります。したがって、これらのバイアスに関する研究が奨励され、理想的には、このモデルの使用は研究目的でユーザーに公開されないプロジェクトに限定するべきです。
📄 ライセンス
このモデルは apache - 2.0
ライセンスで提供されています。
モデルメンテナ
このモデルの使用中に問題が発生した場合や更新が必要な場合は、gabriele.sarti996@gmail.com までご連絡ください。
📚 ドキュメント
引用情報
@inproceedings{sarti-nissim-2024-it5-text,
title = "{IT}5: Text-to-text Pretraining for {I}talian Language Understanding and Generation",
author = "Sarti, Gabriele and
Nissim, Malvina",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.823",
pages = "9422--9433",
}