Bart-large-paper2slides-summarizer开源摘要模型 - 精准把科研论文摘要成幻灯片内容

首页

Bart Large Paper2slides Summarizer

由 com3dian 开发

基于Bart-Large架构的摘要模型，专门用于将科研论文内容精准摘要为适合幻灯片展示的形式。

文本生成

Transformers

英语开源协议:MIT #科研论文摘要 #无监督学习 #幻灯片生成

下载量 26

发布时间 : 7/10/2023

模型简介

该模型采用无监督学习技术在科研论文自动生成幻灯片数据集上微调，专注于科学文本的精准摘要，与扩展模型Bart-large-paper2slides-expander并行训练。

模型特点

科学文本精准摘要

专门针对科研论文内容优化，能生成适合幻灯片展示的精准摘要。

无监督学习微调

采用无监督学习算法在科研论文自动生成幻灯片数据集上进行微调。

大规模模型架构

基于Bart-Large架构，包含12层编码器和解码器，具有强大的序列到序列处理能力。

模型能力

科学文本摘要

幻灯片内容生成

长文本压缩

使用案例

学术研究

论文演示幻灯片生成

将科研论文内容自动摘要为适合演示的幻灯片格式。

在人工智能、数学等多个科学领域通过人工评估

教育

教学材料准备

快速从复杂科学文献中提取关键信息用于教学演示。

🚀 Bart-Large 文本摘要模型

本项目的 Bart-Large-paper2slides-summarizer 模型，聚焦于精准概括 科学文本。它在科学论文自动幻灯片生成数据集上进行了微调，采用了无监督学习技术，算法源自论文 '仅使用单语语料库的无监督机器翻译'。该模型与同一贡献者的 Bart-large-paper2slides-expander 并行训练。

🚀 快速开始

安装依赖

确保你已经安装了 transformers 库。你可以使用以下命令进行安装：

pip install transformers

使用示例

要使用这个模型，你可以借助 Hugging Face 的 Transformers 库。以下是一个在 Python 中使用该模型的示例：

from transformers import BartTokenizer, BartForConditionalGeneration, pipeline

# 加载模型和分词器
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 从输入文本生成摘要
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)

# 解码生成的摘要
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)

# 或者使用 pipeline API
summarizer = pipeline("summarization", model=model_name)
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)

✨ 主要特性

精准摘要：专注于科学文本的精准概括，在多个科学领域表现出色。
无监督学习：采用无监督学习技术进行微调，无需人工标注数据。
并行训练：与 Bart-large-paper2slides-expander 并行训练，提升性能。

📦 安装指南

使用前请确保安装 transformers 库，安装命令如下：

pip install transformers

💻 使用示例

基础用法

from transformers import BartTokenizer, BartForConditionalGeneration, pipeline

# 加载模型和分词器
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 从输入文本生成摘要
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)

# 解码生成的摘要
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)

高级用法

# 使用 pipeline API
summarizer = pipeline("summarization", model=model_name)
input_text = "Your input text here..."
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)

📚 详细文档

模型详情

模型架构：Bart-Large
微调数据集：科学论文自动幻灯片生成数据集
微调方法：无监督学习

Bart（双向自回归变换器）是由 Facebook AI Research 开发的序列到序列（seq2seq）模型，在文本摘要、文本生成和机器翻译等自然语言处理（NLP）任务中表现出色。

Bart-Large 是 Bart 模型的更大版本，包含 12 个编码器和解码器层，总共有 4 亿个参数。

模型微调详情

微调过程使用无监督学习技术在幻灯片生成数据集上进行训练。无监督学习是指在没有明确人工标注目标的情况下训练模型，该模型学习将扩展模型提供的输入反向概括为原始文本。

微调该模型使用的具体超参数和训练细节如下：

属性	详情
批次大小	4
学习率	2e - 6
训练步骤	3*7
优化器	AdamW

模型性能

Bart-Large 幻灯片生成模型在包括人工智能、数学、统计学、历史、地理和气候科学等广泛的科学领域进行了全面的人工评估，以与 Bart-large-cnn 模型进行性能比较。

🔧 技术细节

在介绍更简单的基于深度神经网络（DNN）的 BagNets 之前，我们先回顾一下经典的特征袋模型的主要元素。特征袋表示可以通过与词袋表示进行类比来描述。在词袋模型中，我们统计文档中词汇表中每个单词的出现次数。这个词汇表包含重要的单词（而不是像 “and” 或 “the” 这样的常用词）和词簇（即语义相似的单词，如 “gigantic” 和 “enormous” 被归为一类）。词汇表中每个单词的计数被组装成一个长的词向量，这被称为词袋文档表示，因为所有单词的顺序信息都丢失了。

同样，特征袋表示基于视觉词的词汇表，这些视觉词代表局部图像特征的簇。图像的词向量就是词汇表中每个视觉词的出现次数，这个词向量被用作分类器（如支持向量机 SVM 或多层感知机 MLP）的输入。许多成功的图像分类模型都基于这个流程（Csurka 等人，2004；Jurie & Triggs，2005；Zhang 等人，2007；Lazebnik 等人，2006），有关最新概述请参阅 O’Hara & Draper（2011）。

减少顺序计算的目标也是扩展神经 GPU [16]、ByteNet [18] 和 ConvS2S [9] 的基础，这些模型都使用卷积神经网络作为基本构建块，为所有输入和输出位置并行计算隐藏表示。在这些模型中，关联两个任意输入或输出位置信号所需的操作次数随位置之间的距离而增加，ConvS2S 是线性增加，ByteNet 是对数增加，这使得学习远距离位置之间的依赖关系更加困难 [12]。在 Transformer 中，这被减少到恒定数量的操作，尽管由于对注意力加权位置进行平均而导致有效分辨率降低，我们通过 3.2 节中描述的多头注意力机制来抵消这种影响。

自注意力（有时称为内部注意力）是一种注意力机制，用于关联单个序列的不同位置，以计算序列的表示。自注意力已成功应用于各种任务，包括阅读理解、抽象摘要、文本蕴含和学习与任务无关的句子表示 [4, 27, 28, 22]。

端到端记忆网络基于循环注意力机制而不是序列对齐的循环，并且在简单语言问答和语言建模任务中表现良好 [34]。

据我们所知，Transformer 是第一个完全依赖自注意力来计算其输入和输出表示，而不使用序列对齐的循环神经网络（RNN）或卷积的转换模型。在接下来的部分，我们将描述 Transformer，阐述自注意力的动机，并讨论其相对于 [17, 18] 和 [9] 等模型的优势。