🚀 イタリア語T5 Large 🇮🇹
IT5モデルファミリーは、元のT5モデルが採用したアプローチに従い、イタリア語用の大規模シーケンス-to-シーケンストランスフォーマーモデルを事前学習する最初の試みです。
このモデルは、Gabriele SartiとMalvina Nissimによる"IT5: Text-to-Text Pretraining for Italian Language Understanding and Generation"(公開予定)というプロジェクトの一環として公開されています。このプロジェクトはHuggingfaceの支援を受け、GoogleのTPU Research CloudによるTPU使用のスポンサーシップを得ています。すべての学習はGoogle Cloud上の単一のTPU3v8-VMマシンで行われまし。学習プロセスの概要については、リポジトリのTensorboardタブを参照してください。
推論ウィジェットは、モデルが実際に役立つためには下流タスクでタスク固有のseq2seq微調整が必要であるため、無効になっています。
✨ 主な機能
📦 インストール
このセクションではインストールに関する具体的な手順が記載されていません。
💻 使用例
基本的な使用法
from transformers import AutoTokenzier, AutoModelForSeq2SeqLM
tokenizer = AutoTokenizer.from_pretrained("gsarti/it5-large")
model = AutoModelForSeq2SeqLM.from_pretrained("gsarti/it5-large")
高度な使用法
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-large")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-large")
📚 ドキュメント
モデルのバリエーション
このリポジトリには、モデルのbase
バージョンのチェックポイントが含まれています。モデルは、Thoroughly Cleaned Italian mC4 Corpus(約410億語、約275GB)を使用して1エポック(105万ステップ)学習され、🤗 Datasetsとgoogle/t5-v1_1-large
の改良された設定が用いられました。学習手順はGithubで公開されています。
以下の表は、利用可能なすべてのモデルのパラメータをまとめたものです。
プロパティ |
詳細 |
モデルタイプ |
IT5シリーズ(it5-small , it5-base , it5-large , it5-base-oscar ) |
学習データ |
各モデルに応じて異なります(gsarti/clean_mc4_it または oscar/unshuffled_deduplicated_it ) |
|
it5-small |
it5-base |
it5-large (このモデル) |
it5-base-oscar |
データセット |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
アーキテクチャ |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
学習率 |
5e-3 |
5e-3 |
5e-3 |
1e-2 |
ステップ数 |
1,050,000 |
1,050,000 |
2,100,000 |
258,000 |
学習時間 |
36時間 |
101時間 |
370時間 |
98時間 |
FF投影 |
gated-gelu |
gated-gelu |
gated-gelu |
relu |
埋め込みの結合 |
false |
false |
false |
true |
オプティマイザ |
adafactor |
adafactor |
adafactor |
adafactor |
最大シーケンス長 |
512 |
512 |
512 |
512 |
デバイスごとのバッチサイズ |
16 |
16 |
8 |
16 |
総バッチサイズ |
128 |
128 |
64 |
128 |
重み減衰 |
1e-3 |
1e-3 |
1e-2 |
1e-3 |
検証分割サイズ |
15Kサンプル |
15Kサンプル |
15Kサンプル |
15Kサンプル |
it5-base-oscar
の学習時間が長かったのは、学習スクリプトにバグがあったためです。
個々のモデルパラメータのリストについては、それぞれのリポジトリのconfig.json
ファイルを参照してください。
🔧 技術詳細
IT5モデルが学習されたウェブスクレイピングされたコーパスの性質上、その使用によってデータに事前に存在するバイアスが再現および拡大される可能性があり、人種や性別のステレオタイプや陰謀論的な見解などの潜在的に有害なコンテンツが生じる可能性があります。このため、このようなバイアスの研究が明確に奨励されており、理想的にはモデルの使用は研究目的でユーザーに直接公開されない取り組みに限定されるべきです。
📄 ライセンス
このモデルは、apache-2.0ライセンスの下で公開されています。
モデル管理者
このモデルに関する問題や更新については、gabriele.sarti996@gmail.comに連絡してください。
引用情報
@inproceedings{sarti-nissim-2024-it5-text,
title = "{IT}5: Text-to-text Pretraining for {I}talian Language Understanding and Generation",
author = "Sarti, Gabriele and
Nissim, Malvina",
editor = "Calzolari, Nicoletta and
Kan, Min-Yen and
Hoste, Veronique and
Lenci, Alessandro and
Sakti, Sakriani and
Xue, Nianwen",
booktitle = "Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)",
month = may,
year = "2024",
address = "Torino, Italia",
publisher = "ELRA and ICCL",
url = "https://aclanthology.org/2024.lrec-main.823",
pages = "9422--9433",
abstract = "We introduce IT5, the first family of encoder-decoder transformer models pretrained specifically on Italian. We document and perform a thorough cleaning procedure for a large Italian corpus and use it to pretrain four IT5 model sizes. We then introduce the ItaGen benchmark, which includes a broad range of natural language understanding and generation tasks for Italian, and use it to evaluate the performance of IT5 models and multilingual baselines. We find monolingual IT5 models to provide the best scale-to-performance ratio across tested models, consistently outperforming their multilingual counterparts and setting a new state-of-the-art for Italian language generation.",
}