模型概述
模型特點
模型能力
使用案例
🚀 德語新聞標題生成模型
本模型用於德語新聞標題生成任務。雖然該任務與文本摘要任務十分相似,但在長度、結構和語言風格等方面仍存在差異,這使得現有的先進摘要模型並非最適合標題生成任務,因此需要針對此任務進行進一步的微調。
本模型以谷歌的 mT5-base 為基礎模型。
該模型仍在開發中
🚀 快速開始
本模型基於 mT5 進行微調,其使用方法與 T5 模型類似(詳見文檔)。另一種使用該模型進行推理的方式是藉助 Hugging Face 的 摘要生成管道。
在這兩種情況下,都需要在輸入文本前添加前綴 summarize:
。
為了生成更高質量的標題,建議增加生成時的束搜索寬度。在對本模型進行評估時,束搜索寬度設置為 5。
✨ 主要特性
- 以谷歌的 mT5-base 為基礎模型,進行德語新聞標題生成任務的微調。
- 對生成的標題進行了定量評估,包括 Rouge 系列指標,並且通過多種指標對生成標題的事實性進行評估。
📦 安裝指南
文檔未提及安裝相關內容,故跳過此章節。
💻 使用示例
基礎用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, num_beams=5)
generated_headline = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_headline)
高級用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
headline_generator = pipeline(
"summarization",
model=model,
tokenizer=tokenizer,
num_beams=5
)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
generated_headline = headline_generator(input_text)[0]["summary_text"]
print(generated_headline)
📚 詳細文檔
數據集與預處理
該模型在 2015 年至 2021 年間發佈的 BR24 新聞文章語料庫上進行微調。這些文本為德語,涵蓋政治、體育和文化等不同新聞主題,重點關注與德國巴伐利亞州居民相關的主題。
在預處理步驟中,過濾掉符合以下任何條件的文章 - 標題對:
- 非常短的文章(文本中的單詞數少於標題中單詞數的 3 倍)。
- 標題中僅包含文本中未出現的單詞(詞形還原且不包括停用詞)的文章。
- 標題只是已知文本格式名稱的文章(例如,“Das war der Tag” 是一種總結當天最重要主題的格式)。
此外,為了利用 mT5 預訓練的摘要生成能力,在所有文章前添加了前綴 summarize:
。
過濾後,語料庫包含 89098 個文章 - 標題對,其中 87306 個用於訓練,902 個用於驗證,890 個用於測試。
訓練
在多次微調測試運行後,使用以下參數對當前模型進行進一步訓練:
- 基礎模型:mT5-base
- 輸入前綴:"summarize: "
- 訓練輪數:10
- 學習率:5e - 5
- 熱身比例:0.3
- 學習率調度器類型:constant_with_warmup
- 每個設備的訓練批次大小:3
- 梯度累積步數:2
- 混合精度訓練(fp16):False
每 5000 步保存一個檢查點,並在驗證集上進行評估。訓練結束後,將在驗證集上交叉熵損失最小的檢查點保存為最終模型。
侷限性
與大多數先進的摘要生成模型一樣,該模型在生成文本的事實性方面存在問題 [^factuality]。因此,強烈建議由人工對生成的標題進行事實核查。
對本模型可能存在的偏差進行分析,無論這些偏差是源於微調過程還是基礎 mT5 模型,都超出了本工作的範圍。我們假設模型中存在偏差,對其進行分析將是未來工作的任務。
由於該模型是在 2015 - 2021 年的新聞文章上進行訓練的,由於新聞文章主題的變化和(例如政治)形勢的改變,可能會出現更多的偏差和事實性錯誤。
評估
該模型在包含 890 個文章 - 標題對的保留測試集上進行評估。
對於每個模型,使用束搜索(束寬度為 5)生成標題。
定量評估
模型 | Rouge1 | Rouge2 | RougeL | RougeLsum |
---|---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.107 | 0.0297 | 0.098 | 0.098 |
aiautomationlab/german-news-title-gen-mt5 | 0.3131 | 0.0873 | 0.1997 | 0.1997 |
為了評估生成標題相對於輸入文本的事實性,我們使用了 3 種先進的摘要評估指標(參數根據相應論文或 GitHub 倉庫的建議進行選擇)。由於這些指標僅適用於英語,在進行事實性評估的額外預處理步驟中,使用 DeepL API 將文本和生成的標題從德語翻譯成英語。
- SummaC - CZ [^summac]
得分範圍在 - 1 到 1 之間,表示蘊含概率與矛盾概率之間的差異(- 1:標題在文本中未被蘊含且完全與文本矛盾;1:標題完全被文本蘊含且與文本不矛盾)。 參數:model_name
: vitc
- QAFactEval [^qafacteval]
使用 Lerc Quip 分數,該分數在相應論文中表現最佳。得分範圍在 0 到 5 之間,表示基於標題和文本對從標題生成的問題的答案之間的重疊程度(0:無重疊;5:完全重疊)。 參數:use_lerc_quip
: True
- DAE(依賴弧蘊含) [^dae]
產生 0 或 1 的二進制值,表示標題中的所有依賴弧是否都在文本中被蘊含(0:至少有一個依賴弧未被蘊含;1:所有依賴弧都被蘊含)。 參數:- 模型檢查點:DAE_xsum_human_best_ckpt
model_type
: model_typemax_seq_length
: 512
每個指標針對測試集中的所有文章 - 標題對進行計算,並報告測試集上的平均得分。
模型 | SummacCZ | QAFactEval | DAE |
---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.6969 | 3.3023 | 0.8292 |
aiautomationlab/german-news-title-gen-mt5 | 0.4419 | 1.9265 | 0.7438 |
可以觀察到,本模型的得分始終低於 T - Systems 的模型。經過人工評估,似乎為了匹配標題特定的結構和風格,標題生成模型需要比摘要生成模型更具抽象性,這導致生成的輸出中出現更多的幻覺內容。
定性評估
BR AI + Automation Lab 的成員進行的定性評估表明,該模型能夠生成符合新聞標題語言和風格的標題,但也證實了與先進摘要生成模型常見的事實一致性問題。
未來工作
未來對該模型的工作將集中在生成與文本事實一致性更高的標題上。實現這一目標的思路包括:
- 在預處理步驟中使用指代消解,使模型更明確文本中的關係。
- 使用對比學習 [^contrastive_learning]
- 針對不同的新聞主題使用不同的模型,因為不同主題似乎容易出現不同類型的錯誤,更專業的模型可能能夠提高性能。
- 在生成步驟中使用事實性指標模型對束搜索候選進行重新排序。
- 對模型中包含的偏差進行分析
🔧 技術細節
文檔中關於技術細節的描述分散在各個部分,已在“詳細文檔”章節中詳細闡述,故不再單獨列出技術細節章節。
📄 許可證
本模型採用 MIT 許可證。
[^factuality]: Maynez, Joshua, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. “On Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–19. Online: Association for Computational Linguistics, 2020. https://doi.org/10.18653/v1/2020.acl-main.173.
[^summac]: Laban, Philippe, Tobias Schnabel, Paul N. Bennett, and Marti A. Hearst. “SummaC: Re-Visiting NLI-Based Models for Inconsistency Detection in Summarization.” Transactions of the Association for Computational Linguistics 10 (February 9, 2022): 163–77. https://doi.org/10.1162/tacl_a_00453.
Code: https://github.com/tingofurro/summac
[^qafacteval]: Fabbri, Alexander R., Chien-Sheng Wu, Wenhao Liu, and Caiming Xiong. “QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization.” arXiv, April 29, 2022. https://doi.org/10.48550/arXiv.2112.08542.
Code: https://github.com/salesforce/QAFactEval
[^dae]: Goyal, Tanya, and Greg Durrett. “Annotating and Modeling Fine-Grained Factuality in Summarization.” arXiv, April 9, 2021. http://arxiv.org/abs/2104.04302.
Code: https://github.com/tagoyal/factuality-datasets
[^contrastive_learning]: Cao, Shuyang, and Lu Wang. “CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing, 6633–49. Online and Punta Cana, Dominican Republic: Association for Computational Linguistics, 2021. https://doi.org/10.18653/v1/2021.emnlp-main.532.








