模型简介
模型特点
模型能力
使用案例
🚀 德语新闻标题生成模型
本模型用于德语新闻标题生成任务。虽然该任务与文本摘要任务十分相似,但在长度、结构和语言风格等方面仍存在差异,这使得现有的先进摘要模型并非最适合标题生成任务,因此需要针对此任务进行进一步的微调。
本模型以谷歌的 mT5-base 为基础模型。
该模型仍在开发中
🚀 快速开始
本模型基于 mT5 进行微调,其使用方法与 T5 模型类似(详见文档)。另一种使用该模型进行推理的方式是借助 Hugging Face 的 摘要生成管道。
在这两种情况下,都需要在输入文本前添加前缀 summarize:
。
为了生成更高质量的标题,建议增加生成时的束搜索宽度。在对本模型进行评估时,束搜索宽度设置为 5。
✨ 主要特性
- 以谷歌的 mT5-base 为基础模型,进行德语新闻标题生成任务的微调。
- 对生成的标题进行了定量评估,包括 Rouge 系列指标,并且通过多种指标对生成标题的事实性进行评估。
📦 安装指南
文档未提及安装相关内容,故跳过此章节。
💻 使用示例
基础用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, num_beams=5)
generated_headline = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_headline)
高级用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
headline_generator = pipeline(
"summarization",
model=model,
tokenizer=tokenizer,
num_beams=5
)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
generated_headline = headline_generator(input_text)[0]["summary_text"]
print(generated_headline)
📚 详细文档
数据集与预处理
该模型在 2015 年至 2021 年间发布的 BR24 新闻文章语料库上进行微调。这些文本为德语,涵盖政治、体育和文化等不同新闻主题,重点关注与德国巴伐利亚州居民相关的主题。
在预处理步骤中,过滤掉符合以下任何条件的文章 - 标题对:
- 非常短的文章(文本中的单词数少于标题中单词数的 3 倍)。
- 标题中仅包含文本中未出现的单词(词形还原且不包括停用词)的文章。
- 标题只是已知文本格式名称的文章(例如,“Das war der Tag” 是一种总结当天最重要主题的格式)。
此外,为了利用 mT5 预训练的摘要生成能力,在所有文章前添加了前缀 summarize:
。
过滤后,语料库包含 89098 个文章 - 标题对,其中 87306 个用于训练,902 个用于验证,890 个用于测试。
训练
在多次微调测试运行后,使用以下参数对当前模型进行进一步训练:
- 基础模型:mT5-base
- 输入前缀:"summarize: "
- 训练轮数:10
- 学习率:5e - 5
- 热身比例:0.3
- 学习率调度器类型:constant_with_warmup
- 每个设备的训练批次大小:3
- 梯度累积步数:2
- 混合精度训练(fp16):False
每 5000 步保存一个检查点,并在验证集上进行评估。训练结束后,将在验证集上交叉熵损失最小的检查点保存为最终模型。
局限性
与大多数先进的摘要生成模型一样,该模型在生成文本的事实性方面存在问题 [^factuality]。因此,强烈建议由人工对生成的标题进行事实核查。
对本模型可能存在的偏差进行分析,无论这些偏差是源于微调过程还是基础 mT5 模型,都超出了本工作的范围。我们假设模型中存在偏差,对其进行分析将是未来工作的任务。
由于该模型是在 2015 - 2021 年的新闻文章上进行训练的,由于新闻文章主题的变化和(例如政治)形势的改变,可能会出现更多的偏差和事实性错误。
评估
该模型在包含 890 个文章 - 标题对的保留测试集上进行评估。
对于每个模型,使用束搜索(束宽度为 5)生成标题。
定量评估
模型 | Rouge1 | Rouge2 | RougeL | RougeLsum |
---|---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.107 | 0.0297 | 0.098 | 0.098 |
aiautomationlab/german-news-title-gen-mt5 | 0.3131 | 0.0873 | 0.1997 | 0.1997 |
为了评估生成标题相对于输入文本的事实性,我们使用了 3 种先进的摘要评估指标(参数根据相应论文或 GitHub 仓库的建议进行选择)。由于这些指标仅适用于英语,在进行事实性评估的额外预处理步骤中,使用 DeepL API 将文本和生成的标题从德语翻译成英语。
- SummaC - CZ [^summac]
得分范围在 - 1 到 1 之间,表示蕴含概率与矛盾概率之间的差异(- 1:标题在文本中未被蕴含且完全与文本矛盾;1:标题完全被文本蕴含且与文本不矛盾)。 参数:model_name
: vitc
- QAFactEval [^qafacteval]
使用 Lerc Quip 分数,该分数在相应论文中表现最佳。得分范围在 0 到 5 之间,表示基于标题和文本对从标题生成的问题的答案之间的重叠程度(0:无重叠;5:完全重叠)。 参数:use_lerc_quip
: True
- DAE(依赖弧蕴含) [^dae]
产生 0 或 1 的二进制值,表示标题中的所有依赖弧是否都在文本中被蕴含(0:至少有一个依赖弧未被蕴含;1:所有依赖弧都被蕴含)。 参数:- 模型检查点:DAE_xsum_human_best_ckpt
model_type
: model_typemax_seq_length
: 512
每个指标针对测试集中的所有文章 - 标题对进行计算,并报告测试集上的平均得分。
模型 | SummacCZ | QAFactEval | DAE |
---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.6969 | 3.3023 | 0.8292 |
aiautomationlab/german-news-title-gen-mt5 | 0.4419 | 1.9265 | 0.7438 |
可以观察到,本模型的得分始终低于 T - Systems 的模型。经过人工评估,似乎为了匹配标题特定的结构和风格,标题生成模型需要比摘要生成模型更具抽象性,这导致生成的输出中出现更多的幻觉内容。
定性评估
BR AI + Automation Lab 的成员进行的定性评估表明,该模型能够生成符合新闻标题语言和风格的标题,但也证实了与先进摘要生成模型常见的事实一致性问题。
未来工作
未来对该模型的工作将集中在生成与文本事实一致性更高的标题上。实现这一目标的思路包括:
- 在预处理步骤中使用指代消解,使模型更明确文本中的关系。
- 使用对比学习 [^contrastive_learning]
- 针对不同的新闻主题使用不同的模型,因为不同主题似乎容易出现不同类型的错误,更专业的模型可能能够提高性能。
- 在生成步骤中使用事实性指标模型对束搜索候选进行重新排序。
- 对模型中包含的偏差进行分析
🔧 技术细节
文档中关于技术细节的描述分散在各个部分,已在“详细文档”章节中详细阐述,故不再单独列出技术细节章节。
📄 许可证
本模型采用 MIT 许可证。
[^factuality]: Maynez, Joshua, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. “On Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–19. Online: Association for Computational Linguistics, 2020. https://doi.org/10.18653/v1/2020.acl-main.173.
[^summac]: Laban, Philippe, Tobias Schnabel, Paul N. Bennett, and Marti A. Hearst. “SummaC: Re-Visiting NLI-Based Models for Inconsistency Detection in Summarization.” Transactions of the Association for Computational Linguistics 10 (February 9, 2022): 163–77. https://doi.org/10.1162/tacl_a_00453.
Code: https://github.com/tingofurro/summac
[^qafacteval]: Fabbri, Alexander R., Chien-Sheng Wu, Wenhao Liu, and Caiming Xiong. “QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization.” arXiv, April 29, 2022. https://doi.org/10.48550/arXiv.2112.08542.
Code: https://github.com/salesforce/QAFactEval
[^dae]: Goyal, Tanya, and Greg Durrett. “Annotating and Modeling Fine-Grained Factuality in Summarization.” arXiv, April 9, 2021. http://arxiv.org/abs/2104.04302.
Code: https://github.com/tagoyal/factuality-datasets
[^contrastive_learning]: Cao, Shuyang, and Lu Wang. “CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 6633–49. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. https://doi.org/10.18653/v1/2021.emnlp-main.532.








