🚀 意大利语T5基础模型(Oscar)🇮🇹
本仓库包含曾被称为 gsarti/t5-base-it
的模型
IT5 模型家族是首次针对意大利语进行大规模序列到序列Transformer模型预训练的尝试,采用了原始 T5模型 的方法。
该模型是项目 "IT5: 用于意大利语理解和生成的大规模文本到文本预训练"(待发布)的一部分,由 Gabriele Sarti 在 Huggingface 的支持下完成,并且TPU的使用由谷歌的 TPU研究云 赞助。所有训练都在谷歌云的一台TPU3v8 - VM机器上进行。有关训练过程的概述,请参考仓库的Tensorboard标签。
推理小部件已停用,因为该模型需要在下游任务上进行特定任务的序列到序列微调才能在实际中发挥作用。模型 gsarti/it5-base-nli
提供了该模型在下游自然语言推理(NLI)任务上微调的示例。
✨ 主要特性
模型变体
本仓库包含在 OSCAR语料库 上使用 🤗 Datasets 训练的 base
版本模型的检查点。采用了 t5-base
模型的原始配置,但在预训练期间,dropout_rate
参数设置为 0
而非 0.1
,这遵循了 t5-v1.1
的实现。分词器是在意大利语部分的 mC4
语料库的前200万个句子上训练的 SentencePieceUnigramTokenizer
。在 彻底清理的意大利语mC4语料库(约410亿个单词,约275GB)上训练的改进版本模型也以 gsarti/it5-base
的名称提供。训练过程可在 Github 上查看。
以下表格总结了所有可用模型的参数:
|
it5-small |
it5-base |
it5-large |
it5-base-oscar (本模型) |
数据集 |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
gsarti/clean_mc4_it |
oscar/unshuffled_deduplicated_it |
架构 |
google/t5-v1_1-small |
google/t5-v1_1-base |
google/t5-v1_1-large |
t5-base |
学习率 |
5e - 3 |
5e - 3 |
5e - 3 |
1e - 2 |
步数 |
1050000 |
1050000 |
2100000 |
258000 |
训练时间 |
36小时 |
101小时 |
370小时 |
98小时 |
前馈投影 |
gated - gelu |
gated - gelu |
gated - gelu |
relu |
绑定嵌入 |
false |
false |
false |
true |
优化器 |
adafactor |
adafactor |
adafactor |
adafactor |
最大序列长度 |
512 |
512 |
512 |
512 |
每设备批量大小 |
16 |
16 |
8 |
16 |
总批量大小 |
128 |
128 |
64 |
128 |
权重衰减 |
1e - 3 |
1e - 3 |
1e - 2 |
1e - 3 |
验证集分割大小 |
15K个示例 |
15K个示例 |
15K个示例 |
15K个示例 |
it5-base-oscar
训练时间较长是由于训练脚本中的 一个bug 导致的。
有关单个模型参数的列表,请参考各自仓库中的 config.json
文件。
📦 安装指南
无明确安装步骤,跳过此章节。
💻 使用示例
基础用法
from transformers import T5Tokenizer, T5ForConditionalGeneration
tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
注意:你需要在下游序列到序列任务上微调该模型才能使用它。示例请见 此处。
高级用法
from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration
model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
🔧 技术细节
由于IT5模型是在网络抓取的语料库上训练的,其使用可能会重现并放大数据中已有的偏差,从而产生潜在的有害内容,如种族或性别刻板印象以及阴谋论观点。因此,鼓励对这些偏差进行研究,并且理想情况下,模型的使用应仅限于面向研究且不直接面向用户的工作。
📚 详细文档
模型维护者
如有关于此模型的问题或更新需求,请联系 gabriele.sarti996@gmail.com。
引用信息
@article{sarti-nissim-2022-it5,
title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
author={Sarti, Gabriele and Nissim, Malvina},
journal={ArXiv preprint 2203.03759},
url={https://arxiv.org/abs/2203.03759},
year={2022},
month={mar}
}
📄 许可证
本模型采用 apache - 2.0
许可证。