t5-small-headline-generator开源标题生成模型 - 免费从新闻文本生成简洁标题

首页

T5 Small Headline Generator

由 JulesBelveze 开发

基于t5-small微调的标题生成模型，用于从新闻文本生成简洁标题

文本生成

Transformers

英语开源协议:MIT #新闻标题生成 #T5微调模型 #ROUGE优化

下载量 122

发布时间 : 6/28/2022

模型简介

该模型是基于t5-small架构微调的文本生成模型，专门用于从新闻内容生成简洁的标题。它使用JulesBelveze/tldr_news数据集进行训练，能够理解新闻内容并提取关键信息生成标题。

模型特点

高效标题生成

能够快速从新闻文本中提取关键信息并生成简洁的标题

基于T5架构

使用经过验证的T5-small架构，在保持模型轻量化的同时提供良好的生成效果

特定领域优化

针对新闻标题生成任务进行了专门优化和微调

模型能力

文本摘要

标题生成

关键信息提取

使用案例

新闻媒体

新闻标题自动生成

为新闻文章自动生成简洁有力的标题

ROUGE-1得分44.2，能够有效捕捉文章关键信息

内容管理

内容摘要生成

为长篇文章生成简短摘要

🚀 t5-small 用于标题生成

本模型是基于 t5-small 微调而来，使用 JulesBelveze/tldr_news 数据集进行标题生成任务。

🚀 快速开始

本模型可用于文本标题生成，通过微调 t5-small 模型，在特定数据集上训练得到，能有效生成新闻等文本的标题。

✨ 主要特性

适用任务：支持文本摘要、标题生成、文本生成等任务。
训练数据集：使用 JulesBelveze/tldr_news 数据集进行训练。
评估指标：采用 ROUGE-1、ROUGE-2、ROUGE-L 和 ROUGE-Lsum 进行评估。

📦 安装指南

文档未提供安装步骤，可参考 Hugging Face 官方文档安装相关依赖库，如 transformers 等。

💻 使用示例

基础用法

import re
from transformers import AutoTokenizer, T5ForConditionalGeneration

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """US FCC commissioner Brendan Carr has asked Apple and Google to remove TikTok from their app stores. The video app is owned by Chinese company ByteDance. Carr claims that TikTok functions as a surveillance tool that harvests extensive amounts of personal and sensitive data from US citizens. TikTok says its data access approval process is overseen by a US-based security team and that data is only accessed on an as-needed basis under strict controls."""
model_name = "JulesBelveze/t5-small-headline-generator"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=384
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)
print(summary)