bart_summarizer_model开源文本摘要模型 - 免费将长文转化为简洁连贯摘要

首页

Bart Summarizer Model

由 KipperDev 开发

基于 facebook/bart-base 微调的文本摘要模型，擅长从长篇文本生成简洁、连贯的摘要。

文本生成

Transformers

英语开源协议:MIT #专利摘要生成 #BART微调 #长文本压缩

下载量 30

发布时间 : 1/25/2024

模型简介

该模型利用 BART 的双向编码器和自回归解码器架构，专门针对文本摘要任务进行优化，适用于处理研究报告、论文或文章等长篇文本的摘要生成。

模型特点

专利数据微调

使用 Big Patent Dataset 进行训练，能够处理技术性较强的专利文档摘要。

前缀提示优化

通过添加 'summarize:' 前缀提示，显著提升模型摘要生成质量。

多轮次训练

采用三轮不同参数的训练策略，逐步优化模型性能。

模型能力

长文本压缩

技术文档摘要

核心内容提取

使用案例

专业文档处理

专利文档摘要

快速生成专利文档的技术要点摘要

ROUGE-1 得分达 0.5007

研究报告总结

提取科研报告的核心发现和结论

内容创作辅助

文章摘要生成

为长篇新闻或博客文章生成简明摘要

🚀 文本摘要模型：KipperDev/bart_summarizer_model

本项目基于微调的facebook/bart-base模型，专注于文本摘要任务。它能够从长篇文本中生成简洁、连贯且信息丰富的摘要，帮助用户快速把握文档核心内容，尤其适合专业人士和研究人员快速了解详细报告、研究论文或文章的要点。

🚀 快速开始

本模型用于将长篇文本概括为简洁、有信息量的摘要。以下是使用步骤：

安装依赖

使用pip进行安装：

pip install transformers

Python代码示例

from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

model_name = "KipperDev/bart_summarizer_model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

# 示例用法
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

⚠️ 重要提示

为使模型按预期工作，需要在输入数据前添加 summarize: 前缀。

✨ 主要特性

基于facebook/bart-base模型微调，专为文本摘要任务设计。
利用BART的双向编码器和自回归解码器，生成高质量摘要。
经过大规模专利数据集训练，能处理复杂文本结构。

📦 安装指南

使用pip安装所需的transformers库：

pip install transformers

💻 使用示例

基础用法

from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

model_name = "KipperDev/bart_summarizer_model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

📚 详细文档

训练详情

训练数据

模型使用 Big Patent Dataset 进行训练，该数据集包含130万份美国专利文档及其对应的人工编写摘要。选择此数据集是因为其语言丰富、结构复杂，能代表文档摘要任务的挑战性。训练过程中使用了数据集的多个子集，以确保模型在不同类型文档上具有广泛的覆盖范围和强大的性能。

训练过程

训练分三轮进行，初始设置为学习率0.00002、批次大小8和4个训练周期。后续轮次调整参数以进一步优化模型性能，分别调整为学习率0.0003、批次大小8和12个训练周期。此外，应用了线性衰减学习率调度，以提高模型的学习效率。

训练结果

使用ROUGE指标评估模型性能，结果表明模型生成的摘要与人工编写的摘要高度一致。

指标	数值
评估损失 (Eval Loss)	1.9244
Rouge-1	0.5007
Rouge-2	0.2704
Rouge-L	0.3627
Rouge-Lsum	0.3636
平均生成长度 (Gen Len)	122.1489
运行时间 (秒)	1459.3826
每秒样本数	1.312
每秒步数	0.164

📄 许可证

本项目采用MIT许可证。

📖 引用

BibTeX:

@article{kipper_t5_summarizer,
 // SOON
}

👨‍💻 作者

本模型卡片由 Fernanda Kipper 编写。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库