🚀 CzeGPT-2_summarizer
CzeGPT-2 summarizerは、CzeGPT-2モデルをベースに構築されたチェコ語の要約生成モデルです。このモデルは、GPT-2 smallと同じアーキテクチャ次元(12層、12ヘッド、入出力1024トークン、埋め込みベクトル768次元)を持ち、1億2400万の学習可能なパラメータを持っています。約100万件のチェコ語ニュース記事を含むSumeCzech要約データセットで微調整および評価されました。
このモデルは、指定した長さまで(またはシーケンス長が尽きるまで)要約を生成するように訓練されています。これにより、開発者が独自の制約を設定する余地が残されています。
🚀 クイックスタート
CzeGPT-2 summarizerは、チェコ語の文章を要約するために設計されたモデルです。以下の手順で使用を開始できます。
トークナイザー
同時に、事前学習フェーズと微調整時に使用された、語彙サイズ50257のチェコ語用のトークナイザー(語彙とマージ)も提供しています。これは、元のGPT-2論文で使用されたバイトレベルのBPEトークナイザーです。
学習結果
このモデルは、SumeCzechデータセットのtestとood-testパーティションで評価され、このベンチマークでこれまでに評価された最良の要約生成モデルと比較されました(結果はこちらから取得)。
要約生成器は、SumeCzechの要約の平均長が約40トークンに相当する3文を生成します。この要約の長さは、検証セットでのチューニングによっても確認されています。
私たちは、ほとんどの標準的な指標で最先端の性能を達成しました。
テストセット
モデル |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
18.0/18.7/17.8 |
3.5/3.7/3.5 |
12.6/13.3/12.5 |
First |
13.1/17.9/14.4 |
1.9/2.8/2.1 |
8.8/12.0/9.6 |
TextRank |
11.1/20.8/13.8 |
1.6/3.1/2.0 |
7.1/13.4/8.9 |
Tensor2Tensor |
13.2/10.5/11.3 |
1.2/0.9/1.0 |
10.2/8.1/8.7 |
OODテストセット
モデル |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
16.2/18.5/16.7 |
3.1/3.7/3.2 |
11.5/13.3/11.9 |
First |
11.1/17.1/12.7 |
1.6/2.7/1.9 |
7.6/11.7/8.7 |
TextRank |
9.8/19.9/12.5 |
1.5/3.3/2.0 |
6.6/13.3/8.4 |
Tensor2Tensor |
12.5/9.4/10.3 |
0.8/0.6/0.6 |
9.8/7.5/8.1 |
表中の数値は、精度/再現率/F1スコアを示しています。
エラー分析
現在の標準的なROUGERAW指標は、要約タスクには十分ではないと考えているため(現時点で最良の指標ではありますが)、人間のアノテーターを使って生成された要約の手動エラー分析も行いました。方法論と結果の詳細は、このページの下部に引用されている論文を参照してください。
予測の実行
このリポジトリには、モデルを使用する際の最初のステップをサポートする簡単なJupyter Notebookが含まれています。
見出し生成器
見出し生成タスク用に微調整されたモデルもご覧ください。
引用方法
@article{hajek_horak2024,
author = "Adam Hájek and Aleš Horák",
title = "CzeGPT-2 -- Training New Model for Czech Generative Text Processing Evaluated with the Summarization Task",
journal= "IEEE Access",
year = "2024",
volume = "12",
pages = "34570--34581",
doi = "10.1109/ACCESS.2024.3371689",
}
📄 ライセンス
このモデルは、CC BY-NC-SA 4.0ライセンスの下で提供されています。