any-news-sum开源多语言新闻摘要模型 - 免费部署支持45种语言标题摘要生成

首页

Any News Sum

由 data-silence 开发

基于mT5-base的多语言新闻摘要模型，支持45种语言的新闻标题和摘要生成

文本生成

Transformers

支持多种语言#多语言新闻摘要 #标题摘要同步生成 #俄语优化

下载量 20

发布时间 : 8/16/2024

模型简介

该模型是基于mT5-base架构微调的多语言新闻摘要模型，专门用于根据新闻全文内容同步生成标题和摘要。训练侧重俄语处理，但支持包括中文、英语等在内的45种语言。

模型特点

多语言支持

支持45种语言的新闻摘要生成，特别优化了俄语处理能力

双输出模式

可同时生成新闻标题和摘要内容

高效推理

采用mT5-base架构，在保持性能的同时实现高效推理

模型能力

文本摘要

标题生成

多语言处理

使用案例

新闻媒体

新闻摘要生成

为新闻机构自动生成新闻标题和内容摘要

可快速生成符合新闻风格的标题和摘要

内容聚合

多语言新闻聚合

为多语言新闻聚合平台提供自动摘要功能

支持45种语言的新闻内容处理

🚀 data-silence/any-news-sum

本仓库包含在我的 sumnews 数据集的 45 种语言上微调的 mT5 检查点，该数据集基于流行的 XL-Sum。此模型用于解决新闻摘要任务，旨在根据新闻文章的完整内容同时生成标题和摘要。训练主要聚焦于俄语的处理，但在一定程度上，该模型也可处理 mT5 母模型和 XL-Sum 数据集支持的任何语言的文本。

🚀 快速开始

在 `Spaces` 上测试此模型

你可以点击此处试用训练好的模型。

在 `transformers` 中使用此模型

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
# 加载模型和分词器
model_name = "data-silence/any-news-sum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def generate_summary_with_special_tokens(text, max_length=512):
    inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
    
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        num_return_sequences=1,
        no_repeat_ngram_size=4,
    )
    
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
    
    # 分割为标题和摘要
    parts = generated_text.split('<title_resume_sep>')
    title = parts[0].replace("<pad> ", "").strip()
    resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
    
    return title, resume
title, resume = generate_summary_with_special_tokens('心脏病患者往往褪黑素水平较低，睡眠 - 觉醒周期紊乱。到目前为止，这一现象背后的机制仍不清楚。在《科学》杂志上发表的一篇文章中，慕尼黑工业大学（TUM）的团队展示了心脏病究竟是如何影响松果体中睡眠激素的分泌的。而颈部区域的神经节则成为了两个器官之间的连接纽带。')
print(title)  # 科学家揭示心脏病影响松果体分泌睡眠激素的具体方式
print(resume)  # 科学家在《科学》杂志上发表文章，慕尼黑工业大学（TUM）的团队展示了心脏病如何影响松果体中睡眠激素的分泌。

✨ 主要特性

基于 mT5 模型在多语言新闻数据集上微调，可处理 45 种语言。
能够同时生成新闻文章的标题和摘要。
训练主要针对俄语，但对 mT5 和 XL-Sum 支持的其他语言也有一定处理能力。

📚 详细文档

训练超参数

训练过程中使用了以下超参数：

学习率：2e - 05
训练批次大小：6
评估批次大小：6
随机种子：42
梯度累积步数：6
总训练批次大小：36
优化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型：线性
学习率调度器预热步数：500
训练轮数：4

评估结果

该模型在评估集上取得了以下结果：

指标	意义	ROUGE - 1	ROUGE - 2	ROUGE - L
训练损失	0.4487	-	-	-
训练轮数	4.0	-	-	-
训练步数	20496	-	-	-
评估运行时间（秒）	3433.4702	-	-	-
评估样本/秒	9.37	-	-	-
评估步数/秒	1.562	-	-	-
评估损失	0.2748	-	-	-
评估标题	-	0.1373	0.0489	0.1220
评估摘要	-	0.0016	0.0005	0.0015