🚀 data-silence/any-news-sum
本倉庫包含在我的 sumnews 數據集的 45 種語言上微調的 mT5 檢查點,該數據集基於流行的 XL-Sum。此模型用於解決新聞摘要任務,旨在根據新聞文章的完整內容同時生成標題和摘要。訓練主要聚焦於俄語的處理,但在一定程度上,該模型也可處理 mT5 母模型和 XL-Sum 數據集支持的任何語言的文本。
🚀 快速開始
在 Spaces
上測試此模型
你可以點擊此處試用訓練好的模型。
在 transformers
中使用此模型
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
model_name = "data-silence/any-news-sum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def generate_summary_with_special_tokens(text, max_length=512):
inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
outputs = model.generate(
**inputs,
max_length=max_length,
num_return_sequences=1,
no_repeat_ngram_size=4,
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
parts = generated_text.split('<title_resume_sep>')
title = parts[0].replace("<pad> ", "").strip()
resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
return title, resume
title, resume = generate_summary_with_special_tokens('心臟病患者往往褪黑素水平較低,睡眠 - 覺醒週期紊亂。到目前為止,這一現象背後的機制仍不清楚。在《科學》雜誌上發表的一篇文章中,慕尼黑工業大學(TUM)的團隊展示了心臟病究竟是如何影響松果體中睡眠激素的分泌的。而頸部區域的神經節則成為了兩個器官之間的連接紐帶。')
print(title)
print(resume)
✨ 主要特性
- 基於 mT5 模型在多語言新聞數據集上微調,可處理 45 種語言。
- 能夠同時生成新聞文章的標題和摘要。
- 訓練主要針對俄語,但對 mT5 和 XL-Sum 支持的其他語言也有一定處理能力。
📚 詳細文檔
訓練超參數
訓練過程中使用了以下超參數:
- 學習率:2e - 05
- 訓練批次大小:6
- 評估批次大小:6
- 隨機種子:42
- 梯度累積步數:6
- 總訓練批次大小:36
- 優化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型:線性
- 學習率調度器預熱步數:500
- 訓練輪數:4
評估結果
該模型在評估集上取得了以下結果:
指標 |
意義 |
ROUGE - 1 |
ROUGE - 2 |
ROUGE - L |
訓練損失 |
0.4487 |
- |
- |
- |
訓練輪數 |
4.0 |
- |
- |
- |
訓練步數 |
20496 |
- |
- |
- |
評估運行時間(秒) |
3433.4702 |
- |
- |
- |
評估樣本/秒 |
9.37 |
- |
- |
- |
評估步數/秒 |
1.562 |
- |
- |
- |
評估損失 |
0.2748 |
- |
- |
- |
評估標題 |
- |
0.1373 |
0.0489 |
0.1220 |
評估摘要 |
- |
0.0016 |
0.0005 |
0.0015 |
框架版本
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1