🚀 MT5-base:基于Tapaco和STS基准数据集微调的意大利语复述模型
本模型是基于 TaPaCo 和 STS Benchmark 数据集微调的 MT5-base 意大利语复述模型,能够高效地完成文本复述任务。
🚀 快速开始
安装依赖
确保你已经安装了 transformers
和 torch
库。如果没有安装,可以使用以下命令进行安装:
pip install transformers torch
运行示例代码
以下是一个使用该模型进行文本复述的示例代码:
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
raw_model = 'aiknowyou/mt5-base-it-paraphraser'
model = T5ForConditionalGeneration.from_pretrained(raw_model)
tokenizer = T5Tokenizer.from_pretrained(raw_model)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
max_size = 10000
def paraphrase(text, beams=100, grams=10, num_return_sequences=5):
x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
max_size = int(x.input_ids.shape[1] * 1.5 + 10)
out = model.generate(**x, encoder_no_repeat_ngram_size=grams, num_beams=beams, num_return_sequences=num_return_sequences, max_length=max_size)
return tokenizer.batch_decode(out, skip_special_tokens=True)
sentence = "Due amici si incontrano al bar per discutere del modo migliore di generare parafrasi."
print(paraphrase(sentence))
输出示例
原始问题 ::
"Due amici si incontrano al bar per discutere del modo migliore di generare parafrasi."
复述后的问题 ::
'Due amici stanno discutendo del modo migliore per generare parafrasi.',
'Due amici si incontrano a un bar per discutere del modo migliore per generare parafrasi.',
'Due amici si incontrano al bar per parlare del modo migliore per generare parafrasi.',
'Due amici sono seduti al bar per discutere del modo migliore per generare parafrasi.',
'Due amici si incontrano in un bar per discutere del modo migliore per generare parafrasi.'
✨ 主要特性
- 多语言支持:基于 MT5 模型,该模型支持多种语言,能够处理不同语言的文本复述任务。
- 微调优化:在 TaPaCo 和 STS Benchmark 数据集上进行微调,提高了模型在复述任务上的性能。
- 易于使用:提供了简单的 API 接口,方便用户进行文本复述操作。
📚 详细文档
MT5 模型详情
MT5 模型由 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel 于 2020 年在论文 mT5: A massively multilingual pre-trained text-to-text transformer 中提出。以下是论文摘要:
近期的 “Text-to-Text Transfer Transformer” (T5) 利用统一的文本到文本格式和规模,在各种英语 NLP 任务中取得了最先进的成果。在本文中,我们介绍了 mT5,它是 T5 的多语言变体,在一个新的基于 Common Crawl 的涵盖 101 种语言的数据集上进行了预训练。我们详细介绍了 mT5 的设计和改进的训练方法,并展示了它在许多多语言基准测试中的最先进性能。我们还描述了一种简单的技术,用于防止在零样本设置中出现 “意外翻译”,即生成模型选择将其预测(部分)翻译成错误的语言。本文中使用的所有代码和模型检查点均公开可用。
模型微调
训练脚本是对这个 Colab 笔记本 的略微修改版本。在准备适应意大利语的 mt5 模型时,我们参考了另一个 Colab 笔记本。
📄 许可证
本作品采用 知识共享署名 - 非商业性使用 - 相同方式共享 4.0 国际许可协议 进行许可。
感谢 @tradicio 添加了这个模型。