it5-base-oscar開源模型 - 助力意大利語處理的序列到序列翻譯利器

首頁

It5 Base Oscar

由gsarti開發

首個針對意大利語進行大規模序列到序列Transformer模型預訓練的項目，基於OSCAR語料庫訓練

大型語言模型其他開源協議:Apache-2.0 #意大利語預訓練 #序列到序列 #文本生成

下載量 19

發布時間 : 3/2/2022

模型概述

該模型是IT5模型家族的基礎版本，專門針對意大利語進行預訓練，採用T5架構，適用於各種序列到序列任務。

模型特點

意大利語專用預訓練

首個針對意大利語進行大規模預訓練的序列到序列Transformer模型

基於OSCAR語料庫

使用OSCAR語料庫的意大利語部分進行訓練

改進版分詞器

採用在mC4意大利語部分訓練的SentencePieceUnigramTokenizer

TPU優化訓練

在Google Cloud的TPU3v8-VM機器上完成訓練，由Google TPU研究雲贊助

模型能力

意大利語文本理解

意大利語文本生成

序列到序列轉換

使用案例

自然語言處理

自然語言推理

可用於自然語言推理任務，如前提-假設關係判斷

參見微調模型gsarti/it5-base-nli

文本摘要

可用於意大利語文本的自動摘要生成

機器翻譯

可用於意大利語相關的翻譯任務

🚀 意大利語T5基礎模型（Oscar）🇮🇹

本倉庫包含曾被稱為 gsarti/t5-base-it 的模型

IT5 模型家族是首次針對意大利語進行大規模序列到序列Transformer模型預訓練的嘗試，採用了原始 T5模型的方法。

該模型是項目 "IT5: 用於意大利語理解和生成的大規模文本到文本預訓練"（待發布）的一部分，由 Gabriele Sarti 在 Huggingface 的支持下完成，並且TPU的使用由谷歌的 TPU研究雲贊助。所有訓練都在谷歌雲的一臺TPU3v8 - VM機器上進行。有關訓練過程的概述，請參考倉庫的Tensorboard標籤。

推理小部件已停用，因為該模型需要在下游任務上進行特定任務的序列到序列微調才能在實際中發揮作用。模型 gsarti/it5-base-nli 提供了該模型在下游自然語言推理（NLI）任務上微調的示例。

✨ 主要特性

模型變體

本倉庫包含在 OSCAR語料庫上使用 🤗 Datasets 訓練的 base 版本模型的檢查點。採用了 t5-base 模型的原始配置，但在預訓練期間，dropout_rate 參數設置為 0 而非 0.1，這遵循了 t5-v1.1 的實現。分詞器是在意大利語部分的 mC4 語料庫的前200萬個句子上訓練的 SentencePieceUnigramTokenizer。在徹底清理的意大利語mC4語料庫（約410億個單詞，約275GB）上訓練的改進版本模型也以 gsarti/it5-base 的名稱提供。訓練過程可在 Github 上查看。

以下表格總結了所有可用模型的參數：

	`it5-small`	`it5-base`	`it5-large`	`it5-base-oscar`（本模型）
`數據集`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`gsarti/clean_mc4_it`	`oscar/unshuffled_deduplicated_it`
`架構`	`google/t5-v1_1-small`	`google/t5-v1_1-base`	`google/t5-v1_1-large`	`t5-base`
`學習率`	5e - 3	5e - 3	5e - 3	1e - 2
`步數`	1050000	1050000	2100000	258000
`訓練時間`	36小時	101小時	370小時	98小時
`前饋投影`	`gated - gelu`	`gated - gelu`	`gated - gelu`	`relu`
`綁定嵌入`	`false`	`false`	`false`	`true`
`優化器`	adafactor	adafactor	adafactor	adafactor
`最大序列長度`	512	512	512	512
`每設備批量大小`	16	16	8	16
`總批量大小`	128	128	64	128
`權重衰減`	1e - 3	1e - 3	1e - 2	1e - 3
`驗證集分割大小`	15K個示例	15K個示例	15K個示例	15K個示例

it5-base-oscar 訓練時間較長是由於訓練腳本中的一個bug 導致的。

有關單個模型參數的列表，請參考各自倉庫中的 config.json 文件。

📦 安裝指南

無明確安裝步驟，跳過此章節。

💻 使用示例

基礎用法

from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("gsarti/it5-base-oscar")
model = T5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

注意：你需要在下游序列到序列任務上微調該模型才能使用它。示例請見此處。

高級用法

from transformers import FlaxT5ForConditionalGeneration, TFT5ForConditionalGeneration

model_flax = FlaxT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")
model_tf = TFT5ForConditionalGeneration.from_pretrained("gsarti/it5-base-oscar")

🔧 技術細節

由於IT5模型是在網絡抓取的語料庫上訓練的，其使用可能會重現並放大數據中已有的偏差，從而產生潛在的有害內容，如種族或性別刻板印象以及陰謀論觀點。因此，鼓勵對這些偏差進行研究，並且理想情況下，模型的使用應僅限於面向研究且不直接面向用戶的工作。

📚 詳細文檔

模型維護者

如有關於此模型的問題或更新需求，請聯繫 gabriele.sarti996@gmail.com。

引用信息

@article{sarti-nissim-2022-it5,
    title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
    author={Sarti, Gabriele and Nissim, Malvina},
    journal={ArXiv preprint 2203.03759},
    url={https://arxiv.org/abs/2203.03759},
    year={2022},
    month={mar}
}