🚀 Bart-Large 文本摘要模型
本项目的 Bart-Large-paper2slides-summarizer 模型,聚焦于精准概括 科学文本。它在 科学论文自动幻灯片生成数据集 上进行了微调,采用了无监督学习技术,算法源自论文 '仅使用单语语料库的无监督机器翻译'。该模型与同一贡献者的 Bart-large-paper2slides-expander 并行训练。
🚀 快速开始
安装依赖
确保你已经安装了 transformers
库。你可以使用以下命令进行安装:
pip install transformers
使用示例
要使用这个模型,你可以借助 Hugging Face 的 Transformers 库。以下是一个在 Python 中使用该模型的示例:
from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)
summarizer = pipeline("summarization", model=model_name)
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)
✨ 主要特性
📦 安装指南
使用前请确保安装 transformers
库,安装命令如下:
pip install transformers
💻 使用示例
基础用法
from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)
高级用法
summarizer = pipeline("summarization", model=model_name)
input_text = "Your input text here..."
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)
📚 详细文档
模型详情
Bart(双向自回归变换器)是由 Facebook AI Research 开发的序列到序列(seq2seq)模型,在文本摘要、文本生成和机器翻译等自然语言处理(NLP)任务中表现出色。
Bart-Large 是 Bart 模型的更大版本,包含 12 个编码器和解码器层,总共有 4 亿个参数。
模型微调详情
微调过程使用无监督学习技术在幻灯片生成数据集上进行训练。无监督学习是指在没有明确人工标注目标的情况下训练模型,该模型学习将扩展模型提供的输入反向概括为原始文本。
微调该模型使用的具体超参数和训练细节如下:
属性 |
详情 |
批次大小 |
4 |
学习率 |
2e - 6 |
训练步骤 |
3*7 |
优化器 |
AdamW |
模型性能
Bart-Large 幻灯片生成模型在包括人工智能、数学、统计学、历史、地理和气候科学等广泛的科学领域进行了全面的人工评估,以与 Bart-large-cnn 模型进行性能比较。
🔧 技术细节
在介绍更简单的基于深度神经网络(DNN)的 BagNets 之前,我们先回顾一下经典的特征袋模型的主要元素。特征袋表示可以通过与词袋表示进行类比来描述。在词袋模型中,我们统计文档中词汇表中每个单词的出现次数。这个词汇表包含重要的单词(而不是像 “and” 或 “the” 这样的常用词)和词簇(即语义相似的单词,如 “gigantic” 和 “enormous” 被归为一类)。词汇表中每个单词的计数被组装成一个长的词向量,这被称为词袋文档表示,因为所有单词的顺序信息都丢失了。
同样,特征袋表示基于视觉词的词汇表,这些视觉词代表局部图像特征的簇。图像的词向量就是词汇表中每个视觉词的出现次数,这个词向量被用作分类器(如支持向量机 SVM 或多层感知机 MLP)的输入。许多成功的图像分类模型都基于这个流程(Csurka 等人,2004;Jurie & Triggs,2005;Zhang 等人,2007;Lazebnik 等人,2006),有关最新概述请参阅 O’Hara & Draper(2011)。
减少顺序计算的目标也是扩展神经 GPU [16]、ByteNet [18] 和 ConvS2S [9] 的基础,这些模型都使用卷积神经网络作为基本构建块,为所有输入和输出位置并行计算隐藏表示。在这些模型中,关联两个任意输入或输出位置信号所需的操作次数随位置之间的距离而增加,ConvS2S 是线性增加,ByteNet 是对数增加,这使得学习远距离位置之间的依赖关系更加困难 [12]。在 Transformer 中,这被减少到恒定数量的操作,尽管由于对注意力加权位置进行平均而导致有效分辨率降低,我们通过 3.2 节中描述的多头注意力机制来抵消这种影响。
自注意力(有时称为内部注意力)是一种注意力机制,用于关联单个序列的不同位置,以计算序列的表示。自注意力已成功应用于各种任务,包括阅读理解、抽象摘要、文本蕴含和学习与任务无关的句子表示 [4, 27, 28, 22]。
端到端记忆网络基于循环注意力机制而不是序列对齐的循环,并且在简单语言问答和语言建模任务中表现良好 [34]。
据我们所知,Transformer 是第一个完全依赖自注意力来计算其输入和输出表示,而不使用序列对齐的循环神经网络(RNN)或卷积的转换模型。在接下来的部分,我们将描述 Transformer,阐述自注意力的动机,并讨论其相对于 [17, 18] 和 [9] 等模型的优势。
📄 许可证
本模型及相关代码遵循 MIT 许可证 发布。
👏 致谢
我们感谢 Bart 模型的作者和幻灯片生成数据集的创建者的宝贵贡献,正是他们的工作使得这个微调模型得以开发。
如果您使用了这个模型或发现它对您的工作有帮助,请考虑引用 Bart 模型的原始论文、幻灯片生成数据集以及 这篇论文,以向相关作者提供恰当的引用。