long-t5-tglobal-xl-16384-book-summary开源模型 - 免费生成类似SparkNotes的长文本摘要

首页

Long T5 Tglobal Xl 16384 Book Summary

由 pszemraj 开发

基于BookSum数据集微调的LongT5-XL模型，专为长文本摘要设计，能生成类似SparkNotes的摘要。

文本生成

Transformers

开源协议:Bsd-3-clause #长文本摘要 #书籍摘要 #高精度生成

下载量 58

发布时间 : 11/27/2022

模型简介

该模型在kmfoda/booksum数据集上微调，擅长处理学术和叙述性文本，能生成高质量的摘要内容。

模型特点

长文本处理能力

支持最长16384个token的输入文本，适合处理书籍章节等长文档。

高质量摘要

从人类评估角度看，XL检查点能生成更好的摘要内容。

多领域适用性

对学术和叙述性文本都有较好的泛化能力。

LLM.int8量化支持

支持8位量化，显著减少内存使用同时保持摘要质量。

模型能力

长文本摘要

书籍章节总结

学术论文摘要

法律文档摘要

使用案例

教育

书籍摘要生成

为学生生成类似SparkNotes的书籍章节摘要

生成易于理解的章节概述

研究

学术论文摘要

为研究人员生成长篇论文的简明摘要

ROUGE-1得分36.2043（multi_news数据集）

法律

法律文档摘要

总结冗长的法律文件

ROUGE-1得分41.3645（billsum数据集）

🚀 long-t5-tglobal-xl + BookSum

本项目基于long-t5-tglobal-xl模型在kmfoda/booksum数据集上微调而来，能够对长文本进行总结，为你提供类似SparkNotes的各主题摘要。它在学术和叙述性文本上泛化能力较好，XL版本在人工评估中能生成更优质的摘要。

🚀 快速开始

安装依赖

安装或更新transformers库：

pip install -U transformers

文本总结示例

使用pipeline进行文本总结：

import torch
from transformers import pipeline

summarizer = pipeline(
    "summarization",
    "pszemraj/long-t5-tglobal-xl-16384-book-summary",
    device=0 if torch.cuda.is_available() else -1,
)
long_text = "Here is a lot of text I don't want to read. Replace me"

result = summarizer(long_text)
print(result[0]["summary_text"])

⚠️ 重要提示

根据此讨论，我们发现long-t5模型版本 >= 4.23.0 存在问题。请使用pip install transformers==4.22.0以确保该模型性能良好。

简单概念验证

以下是对著名的海豹突击队复制粘贴文本的总结：

In this chapter, the monster explains how he intends to exact revenge on "the little b****" who insulted him. He tells the kiddo that he is a highly trained and experienced killer who will use his arsenal of weapons--including his access to the internet--to exact justice on the little brat.

虽然这是一个粗糙的例子，但你可以将这段复制粘贴文本输入其他总结模型，看看理解能力的差异（即使它甚至不是“长”文本！）。

✨ 主要特性

能够对长文本进行总结，生成类似SparkNotes的各主题摘要。
在学术和叙述性文本上有较好的泛化能力。
XL版本在人工评估中能生成更优质的摘要。

📦 安装指南

安装`transformers`库

pip install -U transformers

安装`bitsandbytes`和`accelerate`库（用于LLM.int8量化）

pip install -U transformers bitsandbytes accelerate

安装`textsum`包（可选）

pip install textsum

💻 使用示例

基础用法

import torch
from transformers import pipeline

summarizer = pipeline(
    "summarization",
    "pszemraj/long-t5-tglobal-xl-16384-book-summary",
    device=0 if torch.cuda.is_available() else -1,
)
long_text = "Here is a lot of text I don't want to read. Replace me"

result = summarizer(long_text)
print(result[0]["summary_text"])

高级用法

调整参数

在调用summarizer时传递其他与波束搜索文本生成相关的参数，以获得更高质量的结果。

LLM.int8量化

通过此PR，long-t5模型现在支持LLM.int8量化。

from transformers import AutoTokenizer, AutoModelForSeq2SeqLM

tokenizer = AutoTokenizer.from_pretrained(
    "pszemraj/long-t5-tglobal-xl-16384-book-summary"
)

model = AutoModelForSeq2SeqLM.from_pretrained(
    "pszemraj/long-t5-tglobal-xl-16384-book-summary",
    load_in_8bit=True,
    device_map="auto",
)

使用`textsum`包

from textsum.summarize import Summarizer

summarizer = Summarizer(
    model_name_or_path="pszemraj/long-t5-tglobal-xl-16384-book-summary"
)
long_string = "This is a long string of text that will be summarized."
out_str = summarizer.summarize_string(long_string)
print(f"summary: {out_str}")

📚 详细文档

预期用途和限制

虽然该模型似乎提高了事实一致性，但不要将总结视为万无一失的，对于看起来奇怪的内容要进行检查。特别是否定陈述（即模型说：“这个东西没有[属性]”，而实际上应该说“这个东西有很多[属性]”）。你通常可以通过将特定陈述与周围句子的含义进行比较来检查。

训练和评估数据

使用HuggingFace上的kmfoda/booksum数据集，阅读原始论文。

初始微调：出于内存原因，仅使用输入标记为12288或更少且输出标记为1024或更少的输入文本（即，在训练前丢弃更长的行）。经过快速分析，该数据集中12288 - 16384范围内的总结占少数。此外，初始训练将训练集和验证集合并，并对它们进行整体训练，以增加功能数据集的大小。因此，对验证集结果要持保留态度；主要指标应该（始终）是测试集。
最终微调阶段：使用标准的16384输入/1024输出约定，保留标准的输入/输出长度（并截断较长的序列）。这似乎对损失/性能影响不大。

评估结果

将使用模型评估器计算并公布官方结果。由于训练方法的原因，验证集上的性能看起来比测试集上的结果要好。该模型在评估集上取得以下结果：

eval_loss: 1.2756
eval_rouge1: 41.8013
eval_rouge2: 12.0895
eval_rougeL: 21.6007
eval_rougeLsum: 39.5382
eval_gen_len: 387.2945
eval_runtime: 13908.4995
eval_samples_per_second: 0.107
eval_steps_per_second: 0.027

***** predict/test metrics (initial) ***** predict_gen_len = 506.4368 predict_loss = 2.028 predict_rouge1 = 36.8815 predict_rouge2 = 8.0625 predict_rougeL = 17.6161 predict_rougeLsum = 34.9068 predict_runtime = 2:04:14.37 predict_samples = 1431 predict_samples_per_second = 0.192 predict_steps_per_second = 0.048