t5-small-headline-generator開源標題生成模型 - 免費從新聞文本生成簡潔標題

首頁

T5 Small Headline Generator

由JulesBelveze開發

基於t5-small微調的標題生成模型，用於從新聞文本生成簡潔標題

文本生成

Transformers

英語開源協議:MIT #新聞標題生成 #T5微調模型 #ROUGE優化

下載量 122

發布時間 : 6/28/2022

模型概述

該模型是基於t5-small架構微調的文本生成模型，專門用於從新聞內容生成簡潔的標題。它使用JulesBelveze/tldr_news數據集進行訓練，能夠理解新聞內容並提取關鍵信息生成標題。

模型特點

高效標題生成

能夠快速從新聞文本中提取關鍵信息並生成簡潔的標題

基於T5架構

使用經過驗證的T5-small架構，在保持模型輕量化的同時提供良好的生成效果

特定領域優化

針對新聞標題生成任務進行了專門優化和微調

模型能力

文本摘要

標題生成

關鍵信息提取

使用案例

新聞媒體

新聞標題自動生成

為新聞文章自動生成簡潔有力的標題

ROUGE-1得分44.2，能夠有效捕捉文章關鍵信息

內容管理

內容摘要生成

為長篇文章生成簡短摘要

🚀 t5-small 用於標題生成

本模型是基於 t5-small 微調而來，使用 JulesBelveze/tldr_news 數據集進行標題生成任務。

🚀 快速開始

本模型可用於文本標題生成，通過微調 t5-small 模型，在特定數據集上訓練得到，能有效生成新聞等文本的標題。

✨ 主要特性

適用任務：支持文本摘要、標題生成、文本生成等任務。
訓練數據集：使用 JulesBelveze/tldr_news 數據集進行訓練。
評估指標：採用 ROUGE-1、ROUGE-2、ROUGE-L 和 ROUGE-Lsum 進行評估。

📦 安裝指南

文檔未提供安裝步驟，可參考 Hugging Face 官方文檔安裝相關依賴庫，如 transformers 等。

💻 使用示例

基礎用法

import re
from transformers import AutoTokenizer, T5ForConditionalGeneration

WHITESPACE_HANDLER = lambda k: re.sub('\s+', ' ', re.sub('\n+', ' ', k.strip()))

article_text = """US FCC commissioner Brendan Carr has asked Apple and Google to remove TikTok from their app stores. The video app is owned by Chinese company ByteDance. Carr claims that TikTok functions as a surveillance tool that harvests extensive amounts of personal and sensitive data from US citizens. TikTok says its data access approval process is overseen by a US-based security team and that data is only accessed on an as-needed basis under strict controls."""
model_name = "JulesBelveze/t5-small-headline-generator"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = T5ForConditionalGeneration.from_pretrained(model_name)

input_ids = tokenizer(
    [WHITESPACE_HANDLER(article_text)],
    return_tensors="pt",
    padding="max_length",
    truncation=True,
    max_length=384
)["input_ids"]

output_ids = model.generate(
    input_ids=input_ids,
    max_length=84,
    no_repeat_ngram_size=2,
    num_beams=4
)[0]

summary = tokenizer.decode(
    output_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)
print(summary)