🚀 意大利語T5基礎模型(Oscar)🇮🇹
本倉庫包含曾被稱為 gsarti/t5-base-it
的模型
IT5 模型家族是首次針對意大利語進行大規模序列到序列Transformer模型預訓練的嘗試,採用了原始 T5模型 的方法。
該模型是項目 "IT5: 用於意大利語理解和生成的大規模文本到文本預訓練"(待發布)的一部分,由 Gabriele Sarti 在 Huggingface 的支持下完成,並且TPU的使用由谷歌的 TPU研究雲 贊助。所有訓練都在谷歌雲的一臺TPU3v8 - VM機器上進行。有關訓練過程的概述,請參考倉庫的Tensorboard標籤。
推理小部件已停用,因為該模型需要在下游任務上進行特定任務的序列到序列微調才能在實際中發揮作用。模型 gsarti/it5-base-nli
提供了該模型在下游自然語言推理(NLI)任務上微調的示例。
✨ 主要特性
模型變體
本倉庫包含在 OSCAR語料庫 上使用 🤗 Datasets 訓練的 base
版本模型的檢查點。採用了 t5-base
模型的原始配置,但在預訓練期間,dropout_rate
參數設置為 0
而非 0.1
,這遵循了 t5-v1.1
的實現。分詞器是在意大利語部分的 mC4
語料庫的前200萬個句子上訓練的 SentencePieceUnigramTokenizer
。在 徹底清理的意大利語mC4語料庫(約410億個單詞,約275GB)上訓練的改進版本模型也以 gsarti/it5-base
的名稱提供。訓練過程可在 Github 上查看。
以下表格總結了所有可用模型的參數:
|
it5-small |
it5-base |
it5-large |
it5-base-oscar (本模型) |
數據集 |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
架構 |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
學習率 |
5e - 3 |
5e - 3 |
5e - 3 |
1e - 2 |
步數 |
1050000 |
1050000 |
2100000 |
258000 |
訓練時間 |
36小時 |
101小時 |
370小時 |
98小時 |
前饋投影 |
gated - gelu |
gated - gelu |
gated - gelu |
relu |
綁定嵌入 |
false |
false |
false |
true |
優化器 |
adafactor |
adafactor |
adafactor |
adafactor |
最大序列長度 |
512 |
512 |
512 |
512 |
每設備批量大小 |
16 |
16 |
8 |
16 |
總批量大小 |
128 |
128 |
64 |
128 |
權重衰減 |
1e - 3 |
1e - 3 |
1e - 2 |
1e - 3 |
驗證集分割大小 |
15K個示例 |
15K個示例 |
15K個示例 |
15K個示例 |
it5-base-oscar
訓練時間較長是由於訓練腳本中的 一個bug 導致的。
有關單個模型參數的列表,請參考各自倉庫中的 config.json
文件。
📦 安裝指南
無明確安裝步驟,跳過此章節。
💻 使用示例
基礎用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
注意:你需要在下游序列到序列任務上微調該模型才能使用它。示例請見 此處。
高級用法
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
🔧 技術細節
由於IT5模型是在網絡抓取的語料庫上訓練的,其使用可能會重現並放大數據中已有的偏差,從而產生潛在的有害內容,如種族或性別刻板印象以及陰謀論觀點。因此,鼓勵對這些偏差進行研究,並且理想情況下,模型的使用應僅限於面向研究且不直接面向用戶的工作。
📚 詳細文檔
模型維護者
如有關於此模型的問題或更新需求,請聯繫 gabriele.sarti996@gmail.com。
引用信息
@article{sarti-nissim-2022-it5,
title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
📄 許可證
本模型採用 apache - 2.0
許可證。