any-news-sum開源多語言新聞摘要模型 - 免費部署支持45種語言標題摘要生成

首頁

Any News Sum

由data-silence開發

基於mT5-base的多語言新聞摘要模型，支持45種語言的新聞標題和摘要生成

文本生成

Transformers

支持多種語言#多語言新聞摘要 #標題摘要同步生成 #俄語優化

下載量 20

發布時間 : 8/16/2024

模型概述

該模型是基於mT5-base架構微調的多語言新聞摘要模型，專門用於根據新聞全文內容同步生成標題和摘要。訓練側重俄語處理，但支持包括中文、英語等在內的45種語言。

模型特點

多語言支持

支持45種語言的新聞摘要生成，特別優化了俄語處理能力

雙輸出模式

可同時生成新聞標題和摘要內容

高效推理

採用mT5-base架構，在保持性能的同時實現高效推理

模型能力

文本摘要

標題生成

多語言處理

使用案例

新聞媒體

新聞摘要生成

為新聞機構自動生成新聞標題和內容摘要

可快速生成符合新聞風格的標題和摘要

內容聚合

多語言新聞聚合

為多語言新聞聚合平臺提供自動摘要功能

支持45種語言的新聞內容處理

🚀 data-silence/any-news-sum

本倉庫包含在我的 sumnews 數據集的 45 種語言上微調的 mT5 檢查點，該數據集基於流行的 XL-Sum。此模型用於解決新聞摘要任務，旨在根據新聞文章的完整內容同時生成標題和摘要。訓練主要聚焦於俄語的處理，但在一定程度上，該模型也可處理 mT5 母模型和 XL-Sum 數據集支持的任何語言的文本。

🚀 快速開始

在 `Spaces` 上測試此模型

你可以點擊此處試用訓練好的模型。

在 `transformers` 中使用此模型

import torch
from transformers import AutoTokenizer, AutoModelForSeq2SeqLM, DataCollatorForSeq2Seq
# 加載模型和分詞器
model_name = "data-silence/any-news-sum"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
def generate_summary_with_special_tokens(text, max_length=512):
    inputs = tokenizer(text, return_tensors="pt", max_length=max_length, truncation=True).to(device)
    
    outputs = model.generate(
        **inputs,
        max_length=max_length,
        num_return_sequences=1,
        no_repeat_ngram_size=4,
    )
    
    generated_text = tokenizer.decode(outputs[0], skip_special_tokens=False)
    
    # 分割為標題和摘要
    parts = generated_text.split('<title_resume_sep>')
    title = parts[0].replace("<pad> ", "").strip()
    resume = parts[1].replace("</s>", "").strip() if len(parts) > 1 else ""
    
    return title, resume
title, resume = generate_summary_with_special_tokens('心臟病患者往往褪黑素水平較低，睡眠 - 覺醒週期紊亂。到目前為止，這一現象背後的機制仍不清楚。在《科學》雜誌上發表的一篇文章中，慕尼黑工業大學（TUM）的團隊展示了心臟病究竟是如何影響松果體中睡眠激素的分泌的。而頸部區域的神經節則成為了兩個器官之間的連接紐帶。')
print(title)  # 科學家揭示心臟病影響松果體分泌睡眠激素的具體方式
print(resume)  # 科學家在《科學》雜誌上發表文章，慕尼黑工業大學（TUM）的團隊展示了心臟病如何影響松果體中睡眠激素的分泌。

✨ 主要特性

基於 mT5 模型在多語言新聞數據集上微調，可處理 45 種語言。
能夠同時生成新聞文章的標題和摘要。
訓練主要針對俄語，但對 mT5 和 XL-Sum 支持的其他語言也有一定處理能力。

📚 詳細文檔

訓練超參數

訓練過程中使用了以下超參數：

學習率：2e - 05
訓練批次大小：6
評估批次大小：6
隨機種子：42
梯度累積步數：6
總訓練批次大小：36
優化器：Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型：線性
學習率調度器預熱步數：500
訓練輪數：4

評估結果

該模型在評估集上取得了以下結果：

指標	意義	ROUGE - 1	ROUGE - 2	ROUGE - L
訓練損失	0.4487	-	-	-
訓練輪數	4.0	-	-	-
訓練步數	20496	-	-	-
評估運行時間（秒）	3433.4702	-	-	-
評估樣本/秒	9.37	-	-	-
評估步數/秒	1.562	-	-	-
評估損失	0.2748	-	-	-
評估標題	-	0.1373	0.0489	0.1220
評估摘要	-	0.0016	0.0005	0.0015