🚀 data-silence/any-news-sum
本仓库包含在我的 sumnews 数据集的 45 种语言上微调的 mT5 检查点,该数据集基于流行的 XL-Sum。此模型用于解决新闻摘要任务,旨在根据新闻文章的完整内容同时生成标题和摘要。训练主要聚焦于俄语的处理,但在一定程度上,该模型也可处理 mT5 母模型和 XL-Sum 数据集支持的任何语言的文本。
🚀 快速开始
在 Spaces
上测试此模型
你可以点击此处试用训练好的模型。
在 transformers
中使用此模型
import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
model_name = "data-silence/any-news-sum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def generate_summary_with_special_tokens(text, max_length=512):
inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
outputs = model.generate(
**inputs,
max_length=max_length,
num_return_sequences=1,
no_repeat_ngram_size=4,
)
generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
parts = generated_text.split('<title_resume_sep>')
title = parts[0].replace("<pad> ", "").strip()
resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
return title, resume
title, resume = generate_summary_with_special_tokens('心脏病患者往往褪黑素水平较低,睡眠 - 觉醒周期紊乱。到目前为止,这一现象背后的机制仍不清楚。在《科学》杂志上发表的一篇文章中,慕尼黑工业大学(TUM)的团队展示了心脏病究竟是如何影响松果体中睡眠激素的分泌的。而颈部区域的神经节则成为了两个器官之间的连接纽带。')
print(title)
print(resume)
✨ 主要特性
- 基于 mT5 模型在多语言新闻数据集上微调,可处理 45 种语言。
- 能够同时生成新闻文章的标题和摘要。
- 训练主要针对俄语,但对 mT5 和 XL-Sum 支持的其他语言也有一定处理能力。
📚 详细文档
训练超参数
训练过程中使用了以下超参数:
- 学习率:2e - 05
- 训练批次大小:6
- 评估批次大小:6
- 随机种子:42
- 梯度累积步数:6
- 总训练批次大小:36
- 优化器:Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型:线性
- 学习率调度器预热步数:500
- 训练轮数:4
评估结果
该模型在评估集上取得了以下结果:
指标 |
意义 |
ROUGE - 1 |
ROUGE - 2 |
ROUGE - L |
训练损失 |
0.4487 |
- |
- |
- |
训练轮数 |
4.0 |
- |
- |
- |
训练步数 |
20496 |
- |
- |
- |
评估运行时间(秒) |
3433.4702 |
- |
- |
- |
评估样本/秒 |
9.37 |
- |
- |
- |
评估步数/秒 |
1.562 |
- |
- |
- |
评估损失 |
0.2748 |
- |
- |
- |
评估标题 |
- |
0.1373 |
0.0489 |
0.1220 |
评估摘要 |
- |
0.0016 |
0.0005 |
0.0015 |
框架版本
- Transformers 4.42.4
- Pytorch 2.3.1+cu121
- Datasets 2.21.0
- Tokenizers 0.19.1