🚀 CzeGPT-2 文本摘要生成器
CzeGPT-2 文本摘要生成器是一個基於 CzeGPT-2 模型構建的捷克語文本摘要生成工具。該模型的架構維度與 GPT-2 small 相同(12 層、12 個頭、輸入/輸出為 1024 個標記,嵌入向量維度為 768),可訓練參數達 1.24 億。它在包含約 100 萬篇捷克新聞文章的 SumeCzech 摘要數據集上進行了微調與評估。
該模型經過訓練,能夠根據你的需求生成任意長度的摘要(直到達到序列長度上限),這為開發者設置自定義約束條件提供了空間。
✨ 主要特性
分詞器
我們還提供了一個經過捷克語訓練的分詞器(詞彙表和合並規則),詞彙表大小為 50257,該分詞器在預訓練和微調階段均有使用。它是字節級 BPE 分詞器,與原始 GPT-2 論文中使用的一致。
訓練結果
該模型在 SumeCzech 數據集的 測試集 和 ood-測試集 上進行了評估,並與該基準測試中表現最佳的摘要生成器進行了比較(結果取自 此處)。
摘要生成器生成的摘要約為三句話,平均長度約為 40 個標記,這與 SumeCzech 數據集中摘要的平均長度大致相符。該摘要長度也在驗證集上進行了調優驗證。
我們在大多數標準指標上達到了當前最優水平。
測試集
模型 |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
18.0/18.7/17.8 |
3.5/3.7/3.5 |
12.6/13.3/12.5 |
First |
13.1/17.9/14.4 |
1.9/2.8/2.1 |
8.8/12.0/9.6 |
TextRank |
11.1/20.8/13.8 |
1.6/3.1/2.0 |
7.1/13.4/8.9 |
Tensor2Tensor |
13.2/10.5/11.3 |
1.2/0.9/1.0 |
10.2/8.1/8.7 |
ood-測試集
模型 |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
16.2/18.5/16.7 |
3.1/3.7/3.2 |
11.5/13.3/11.9 |
First |
11.1/17.1/12.7 |
1.6/2.7/1.9 |
7.6/11.7/8.7 |
TextRank |
9.8/19.9/12.5 |
1.5/3.3/2.0 |
6.6/13.3/8.4 |
Tensor2Tensor |
12.5/9.4/10.3 |
0.8/0.6/0.6 |
9.8/7.5/8.1 |
表格中的數字表示 精確率/召回率/F1 分數
錯誤分析
由於我們認為當前標準的 ROUGERAW 指標不太適合文本摘要生成任務(儘管它是目前可用的最佳指標),我們還使用人工標註對生成的摘要進行了手動錯誤分析。你可以在本頁面底部引用的論文中瞭解更多關於該方法和結果的信息。
運行預測
該倉庫包含一個簡單的 Jupyter Notebook,可幫助你在使用該模型時邁出第一步。
標題生成器
另請查看我們針對 標題生成任務 微調的模型。
📄 許可證
本項目採用 CC BY-NC-SA 4.0 許可證。
📚 詳細文檔
如何引用
@article{hajek_horak2024,
author = "Adam Hájek and Aleš Horák",
title = "CzeGPT-2 -- Training New Model for Czech Generative Text Processing Evaluated with the Summarization Task",
journal= "IEEE Access",
year = "2024",
volume = "12",
pages = "34570--34581",
doi = "10.1109/ACCESS.2024.3371689",
}