🚀 CzeGPT-2 文本摘要生成器
CzeGPT-2 文本摘要生成器是一个基于 CzeGPT-2 模型构建的捷克语文本摘要生成工具。该模型的架构维度与 GPT-2 small 相同(12 层、12 个头、输入/输出为 1024 个标记,嵌入向量维度为 768),可训练参数达 1.24 亿。它在包含约 100 万篇捷克新闻文章的 SumeCzech 摘要数据集上进行了微调与评估。
该模型经过训练,能够根据你的需求生成任意长度的摘要(直到达到序列长度上限),这为开发者设置自定义约束条件提供了空间。
✨ 主要特性
分词器
我们还提供了一个经过捷克语训练的分词器(词汇表和合并规则),词汇表大小为 50257,该分词器在预训练和微调阶段均有使用。它是字节级 BPE 分词器,与原始 GPT-2 论文中使用的一致。
训练结果
该模型在 SumeCzech 数据集的 测试集 和 ood-测试集 上进行了评估,并与该基准测试中表现最佳的摘要生成器进行了比较(结果取自 此处)。
摘要生成器生成的摘要约为三句话,平均长度约为 40 个标记,这与 SumeCzech 数据集中摘要的平均长度大致相符。该摘要长度也在验证集上进行了调优验证。
我们在大多数标准指标上达到了当前最优水平。
测试集
模型 |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
18.0/18.7/17.8 |
3.5/3.7/3.5 |
12.6/13.3/12.5 |
First |
13.1/17.9/14.4 |
1.9/2.8/2.1 |
8.8/12.0/9.6 |
TextRank |
11.1/20.8/13.8 |
1.6/3.1/2.0 |
7.1/13.4/8.9 |
Tensor2Tensor |
13.2/10.5/11.3 |
1.2/0.9/1.0 |
10.2/8.1/8.7 |
ood-测试集
模型 |
ROUGERAW-1 |
ROUGERAW-2 |
ROUGERAW-L |
CzeGPT-2 |
16.2/18.5/16.7 |
3.1/3.7/3.2 |
11.5/13.3/11.9 |
First |
11.1/17.1/12.7 |
1.6/2.7/1.9 |
7.6/11.7/8.7 |
TextRank |
9.8/19.9/12.5 |
1.5/3.3/2.0 |
6.6/13.3/8.4 |
Tensor2Tensor |
12.5/9.4/10.3 |
0.8/0.6/0.6 |
9.8/7.5/8.1 |
表格中的数字表示 精确率/召回率/F1 分数
错误分析
由于我们认为当前标准的 ROUGERAW 指标不太适合文本摘要生成任务(尽管它是目前可用的最佳指标),我们还使用人工标注对生成的摘要进行了手动错误分析。你可以在本页面底部引用的论文中了解更多关于该方法和结果的信息。
运行预测
该仓库包含一个简单的 Jupyter Notebook,可帮助你在使用该模型时迈出第一步。
标题生成器
另请查看我们针对 标题生成任务 微调的模型。
📄 许可证
本项目采用 CC BY-NC-SA 4.0 许可证。
📚 详细文档
如何引用
@article{hajek_horak2024,
author = "Adam Hájek and Aleš Horák",
title = "CzeGPT-2 -- Training New Model for Czech Generative Text Processing Evaluated with the Summarization Task",
journal= "IEEE Access",
year = "2024",
volume = "12",
pages = "34570--34581",
doi = "10.1109/ACCESS.2024.3371689",
}