🚀 MT5-base:基於Tapaco和STS基準數據集微調的意大利語複述模型
本模型是基於 TaPaCo 和 STS Benchmark 數據集微調的 MT5-base 意大利語複述模型,能夠高效地完成文本複述任務。
🚀 快速開始
安裝依賴
確保你已經安裝了 transformers
和 torch
庫。如果沒有安裝,可以使用以下命令進行安裝:
pip install transformers torch
運行示例代碼
以下是一個使用該模型進行文本複述的示例代碼:
from transformers import T5ForConditionalGeneration, T5Tokenizer
import torch
raw_model = 'aiknowyou/mt5-base-it-paraphraser'
model = T5ForConditionalGeneration.from_pretrained(raw_model)
tokenizer = T5Tokenizer.from_pretrained(raw_model)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
max_size = 10000
def paraphrase(text, beams=100, grams=10, num_return_sequences=5):
x = tokenizer(text, return_tensors='pt', padding=True).to(model.device)
max_size = int(x.input_ids.shape[1] * 1.5 + 10)
out = model.generate(**x, encoder_no_repeat_ngram_size=grams, num_beams=beams, num_return_sequences=num_return_sequences, max_length=max_size)
return tokenizer.batch_decode(out, skip_special_tokens=True)
sentence = "Due amici si incontrano al bar per discutere del modo migliore di generare parafrasi."
print(paraphrase(sentence))
輸出示例
原始問題 ::
"Due amici si incontrano al bar per discutere del modo migliore di generare parafrasi."
複述後的問題 ::
'Due amici stanno discutendo del modo migliore per generare parafrasi.',
'Due amici si incontrano a un bar per discutere del modo migliore per generare parafrasi.',
'Due amici si incontrano al bar per parlare del modo migliore per generare parafrasi.',
'Due amici sono seduti al bar per discutere del modo migliore per generare parafrasi.',
'Due amici si incontrano in un bar per discutere del modo migliore per generare parafrasi.'
✨ 主要特性
- 多語言支持:基於 MT5 模型,該模型支持多種語言,能夠處理不同語言的文本複述任務。
- 微調優化:在 TaPaCo 和 STS Benchmark 數據集上進行微調,提高了模型在複述任務上的性能。
- 易於使用:提供了簡單的 API 接口,方便用戶進行文本複述操作。
📚 詳細文檔
MT5 模型詳情
MT5 模型由 Linting Xue、Noah Constant、Adam Roberts、Mihir Kale、Rami Al-Rfou、Aditya Siddhant、Aditya Barua、Colin Raffel 於 2020 年在論文 mT5: A massively multilingual pre-trained text-to-text transformer 中提出。以下是論文摘要:
近期的 “Text-to-Text Transfer Transformer” (T5) 利用統一的文本到文本格式和規模,在各種英語 NLP 任務中取得了最先進的成果。在本文中,我們介紹了 mT5,它是 T5 的多語言變體,在一個新的基於 Common Crawl 的涵蓋 101 種語言的數據集上進行了預訓練。我們詳細介紹了 mT5 的設計和改進的訓練方法,並展示了它在許多多語言基準測試中的最先進性能。我們還描述了一種簡單的技術,用於防止在零樣本設置中出現 “意外翻譯”,即生成模型選擇將其預測(部分)翻譯成錯誤的語言。本文中使用的所有代碼和模型檢查點均公開可用。
模型微調
訓練腳本是對這個 Colab 筆記本 的略微修改版本。在準備適應意大利語的 mt5 模型時,我們參考了另一個 Colab 筆記本。
📄 許可證
本作品採用 知識共享署名 - 非商業性使用 - 相同方式共享 4.0 國際許可協議 進行許可。
感謝 @tradicio 添加了這個模型。