German News Title Gen Mt5
モデル概要
モデル特徴
モデル能力
使用事例
🚀 ドイツ語ニュースタイトル生成モデル
このモデルは、ドイツ語のニュースタイトル生成タスク用です。このタスクは要約タスクに似ていますが、長さ、構造、言語スタイルなどの違いがあり、最先端の要約モデルではタイトル生成に最適ではなく、このタスクに対してさらなる微調整が必要です。
🚀 クイックスタート
このモデルはGoogleのmT5-baseをベースモデルとして使用しています。モデルの使用方法はT5モデルに類似しており、入力テキストにはsummarize:
という接頭辞を付ける必要があります。
✨ 主な機能
- ドイツ語のニュース記事からタイトルを生成します。
- 最先端の要約モデルをベースに、タイトル生成に最適化されています。
📦 インストール
このモデルを使用するには、transformers
ライブラリが必要です。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
input_ids = tokenizer(input_text, return_tensors="pt").input_ids
outputs = model.generate(input_ids, num_beams=5)
generated_headline = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(generated_headline)
高度な使用法
from transformers import AutoModelForSeq2SeqLM, AutoTokenizer, pipeline
model_id = ""
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForSeq2SeqLM.from_pretrained(model_id)
headline_generator = pipeline(
"summarization",
model=model,
tokenizer=tokenizer,
num_beams=5
)
text = "Als Reaktion auf die Brandserie wurde am Mittwoch bei der Kriminalpolizei Würzburg eine Ermittlungskommission eingerichtet. Ich habe den Eindruck, der Brandstifter wird dreister, kommentiert Rosalinde Schraud, die Bürgermeisterin von Estenfeld, die Brandserie. Gerade die letzten beiden Brandstiftungen seien ungewöhnlich gewesen, da sie mitten am Tag und an frequentierten Straßen stattgefunden haben.Kommt der Brandstifter aus Estenfeld?Norbert Walz ist das letzte Opfer des Brandstifters von Estenfeld. Ein Unbekannter hat am Dienstagnachmittag sein Gartenhaus angezündet.Was da in seinem Kopf herumgeht, was da passiert – das ist ja unglaublich! Das kann schon jemand aus dem Ort sein, weil sich derjenige auskennt.Norbert Walz aus Estenfeld.Dass es sich beim Brandstifter wohl um einen Bürger ihrer Gemeinde handele, will die erste Bürgermeisterin von Estenfeld, Rosalinde Schraud, nicht bestätigen: In der Bevölkerung gibt es natürlich Spekulationen, an denen ich mich aber nicht beteiligen will. Laut Schraud reagiert die Bürgerschaft mit vermehrter Aufmerksamkeit auf die Brände: Man guckt mehr in die Nachbarschaft. Aufhören wird die Brandserie wohl nicht, solange der Täter nicht gefasst wird.Es wäre nicht ungewöhnlich, dass der Täter aus der Umgebung von Estenfeld stammt. Wir bitten deshalb Zeugen, die sachdienliche Hinweise sowohl zu den Bränden geben können, sich mit unserer Kriminalpolizei in Verbindung zu setzen.Philipp Hümmer, Sprecher des Polizeipräsidiums UnterfrankenFür Hinweise, die zur Ergreifung des Täters führen, hat das Bayerische Landeskriminalamt eine Belohnung von 2.000 Euro ausgesetzt."
input_text = "summarize: " + text
generated_headline = headline_generator(input_text)[0]["summary_text"]
print(generated_headline)
📚 ドキュメント
データセットと前処理
このモデルは、2015年から2021年までにBR24から公開されたニュース記事のコーパスで微調整されています。テキストはドイツ語で、政治、スポーツ、文化などのさまざまなニューストピックをカバーしており、バイエルン州(ドイツ)の人々に関連するトピックに重点が置かれています。
前処理ステップでは、以下の基準に一致する記事とタイトルのペアがフィルタリングされました。
- 非常に短い記事(テキストの単語数がタイトルの単語数の3倍未満)。
- タイトルに含まれる単語がテキストに含まれない記事(語幹化され、ストップワードを除く)。
- タイトルが既知のテキスト形式の名前である記事(例:「Das war der Tag」は、当日の最重要トピックを要約する形式)。
さらに、すべての記事にsummarize:
という接頭辞が追加され、mT5の事前学習された要約機能を利用しました。
フィルタリング後、コーパスには89098の記事とタイトルのペアが含まれており、そのうち87306はトレーニングに、902は検証に、890はテストに使用されました。
トレーニング
このモデルは、以下のパラメータを使用してさらにトレーニングされました。
- ベースモデル: mT5-base
- 入力接頭辞: "summarize: "
- エポック数: 10
- 学習率: 5e-5
- ウォームアップ率: 0.3
- 学習率スケジューラータイプ: constant_with_warmup
- バッチサイズ: 3
- 勾配累積ステップ数: 2
- FP16: False
5000ステップごとにチェックポイントが保存され、検証セットで評価されます。トレーニング後、検証セットで最良の交差エントロピー損失を持つチェックポイントが最終モデルとして保存されます。
🔧 技術詳細
制限事項
このモデルは、ほとんどの最先端の要約モデルと同様に、生成されたテキストの事実性に問題があります。したがって、生成されたタイトルを人間が事実チェックすることを強くお勧めします。
このモデルが再現する可能性のあるバイアスの分析は、この作業の範囲外です。モデル内にバイアスが存在すると想定され、分析は将来の作業となります。
モデルは2015年から2021年のニュース記事でトレーニングされているため、ニュース記事のトピックシフトや(例えば政治的な)状況の変化により、さらなるバイアスや事実誤りが発生する可能性があります。
評価
このモデルは、890の記事とタイトルのペアからなるテストセットで評価されました。
各モデルのタイトルは、ビーム幅5のビームサーチを使用して生成されました。
定量的評価
モデル | Rouge1 | Rouge2 | RougeL | RougeLsum |
---|---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.107 | 0.0297 | 0.098 | 0.098 |
aiautomationlab/german-news-title-gen-mt5 | 0.3131 | 0.0873 | 0.1997 | 0.1997 |
生成されたタイトルの事実性を入力テキストに関して評価するために、要約評価のための3つの最先端のメトリクスが使用されました。これらのメトリクスは英語でのみ利用可能なため、事実性評価のための追加の前処理ステップで、テキストと生成されたタイトルがDeepL APIを使用してドイツ語から英語に翻訳されました。
- SummaC-CZ [^summac]
-1から1までのスコアを返し、含意確率と矛盾確率の差を表します(-1: タイトルがテキストに含意されず、完全に矛盾する、1: タイトルがテキストに完全に含意され、矛盾しない)。 パラメータ:model_name
: vitc
- QAFactEval [^qafacteval]
対応する論文で最良の性能を示すと報告されているLerc Quipスコアを使用します。このスコアは、タイトルから生成された質問に対する回答とテキストの重複度を表す0から5までの値を返します(0: 重複なし、5: 完全な重複)。 パラメータ:use_lerc_quip
: True
- DAE (dependency arc entailment) [^dae]
0または1の二値を返し、タイトル内のすべての依存関係アークがテキストに含意されているかどうかを表します(0: 少なくとも1つの依存関係アークが含意されていない、1: すべての依存関係アークが含意されている)。 パラメータ:- モデルチェックポイント: DAE_xsum_human_best_ckpt
model_type
: model_typemax_seq_length
: 512
各メトリクスは、テストセット内のすべての記事とタイトルのペアに対して計算され、テストセット全体の平均スコアが報告されます。
モデル | SummacCZ | QAFactEval | DAE |
---|---|---|---|
T-Systems-onsite/mt5-small-sum-de-en-v2 | 0.6969 | 3.3023 | 0.8292 |
aiautomationlab/german-news-title-gen-mt5 | 0.4419 | 1.9265 | 0.7438 |
このモデルは、T-Systemsのモデルよりも一貫して低いスコアを記録しています。人間による評価によると、タイトルに特有の構造とスタイルに合わせるために、タイトル生成モデルは要約モデルよりも抽象的である必要があり、これにより生成された出力に幻覚が生じる頻度が高くなるようです。
定性的評価
BR AI + Automation Labのメンバーによる定性的評価により、このモデルはニュースタイトルの言語とスタイルに合致するタイトルを生成することに成功しているが、最先端の要約モデルに共通する事実の一貫性に問題があることが確認されました。
📄 ライセンス
このモデルはMITライセンスの下で公開されています。
[^factuality]: Maynez, Joshua, Shashi Narayan, Bernd Bohnet, and Ryan McDonald. “On Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics, 1906–19. Online: Association for Computational Linguistics, 2020. https://doi.org/10.18653/v1/2020.acl-main.173.
[^summac]: Laban, Philippe, Tobias Schnabel, Paul N. Bennett, and Marti A. Hearst. “SummaC: Re-Visiting NLI-Based Models for Inconsistency Detection in Summarization.” Transactions of the Association for Computational Linguistics 10 (February 9, 2022): 163–77. https://doi.org/10.1162/tacl_a_00453.
Code: https://github.com/tingofurro/summac
[^qafacteval]: Fabbri, Alexander R., Chien-Sheng Wu, Wenhao Liu, and Caiming Xiong. “QAFactEval: Improved QA-Based Factual Consistency Evaluation for Summarization.” arXiv, April 29, 2022. https://doi.org/10.48550/arXiv.2112.08542.
Code: https://github.com/salesforce/QAFactEval
[^dae]: Goyal, Tanya, and Greg Durrett. “Annotating and Modeling Fine-Grained Factuality in Summarization.” arXiv, April 9, 2021. http://arxiv.org/abs/2104.04302.
Code: https://github.com/tagoyal/factuality-datasets
[^contrastive_learning]: Cao, Shuyang, and Lu Wang. “CLIFF: Contrastive Learning for Improving Faithfulness and Factuality in Abstractive Summarization.” In Proceedings of the 2021 Conference on Empirical Methods in Natural Language Processing
🔮 将来の展望
このモデルの将来の作業は、テキストに関する事実の一貫性が高いタイトルを生成することに焦点を当てます。この目標を達成するためのアイデアには、以下のものが含まれます。
- テキスト内の関係をモデルにより明示的にするための追加の前処理ステップとして、照応解析を使用する。
- 対照学習[^contrastive_learning]を使用する。
- 異なるニューストピックに対して異なるモデルを使用する。異なるトピックでは異なるタイプのエラーが発生しやすいため、より専門的なモデルを使用することで性能を向上させることができる可能性がある。
- 生成ステップでビームサーチの候補を再ランキングするために、事実性メトリクスモデルを使用する。
- モデルに含まれるバイアスの分析を行う。
⚠️ 重要提示
このモデルは生成されたテキストの事実性に問題があるため、生成されたタイトルを人間が事実チェックすることを強くお勧めします。
💡 使用建议
より高品質のタイトルを得るために、生成時のビームサイズを増やすことをお勧めします。このモデルの評価では、ビームサイズ5が使用されています。








