🚀 long-t5-tglobal-base-16384 + BookSum
本项目聚焦于文本摘要任务,借助long-t5-tglobal-base-16384
模型与BookSum
数据集,在多种文本摘要场景中展现出了良好的性能,为长文档摘要等相关应用提供了有效的解决方案。
🚀 快速开始
你可通过以下链接在Google Colab中体验示例:
示例链接
✨ 主要特性
- 多数据集支持:可在
kmfoda/booksum
、samsum
、cnn_dailymail
、xsum
、billsum
、big_patent
、launch/gov_report
等多个数据集上进行文本摘要任务。
- 参数可配置:提供了如
max_length
、min_length
、no_repeat_ngram_size
等多个可配置参数,方便根据不同需求进行调整。
📦 安装指南
文档未提供具体安装步骤,故跳过此章节。
💻 使用示例
基础用法
以下是一个简单的示例,展示如何选择关键令牌:
example = ['BigBird', 'is', 'now', 'available', 'in', 'HuggingFace', 'for', 'extractive', 'question', 'answering']
query_token = 'available'
key_tokens = []
高级用法
文档未提供高级用法示例,故跳过此部分。
📚 详细文档
标签与数据集
- 标签:summarization、summary、booksum、long-document、long-form
- 数据集:kmfoda/booksum
指标
使用rouge
作为评估指标。
小部件示例
提供了多个不同类型的文本示例,用于展示模型的摘要能力,包括地震相关文本、科学论文、转录音频讲座、BigBird博客介绍、关于《瑞克和莫蒂》的评价以及埃菲尔铁塔介绍等。
参数配置
属性 |
详情 |
max_length |
64 |
min_length |
8 |
no_repeat_ngram_size |
3 |
early_stopping |
true |
repetition_penalty |
3.5 |
encoder_no_repeat_ngram_size |
4 |
num_beams |
3 |
模型索引与结果
模型名称 |
任务类型 |
数据集 |
ROUGE-1 |
ROUGE-2 |
ROUGE-L |
ROUGE-LSUM |
loss |
gen_len |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
kmfoda/booksum |
36.4085 |
6.0646 |
16.7209 |
33.3405 |
.nan |
252.8099 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
samsum |
30.9047 |
7.4715 |
22.3962 |
26.9094 |
.nan |
46.7973 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
cnn_dailymail |
30.5942 |
7.252 |
17.7156 |
27.2881 |
.nan |
125.2507 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
xsum |
20.3648 |
3.4126 |
13.6168 |
15.8313 |
.nan |
82.2177 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
billsum |
39.6378 |
13.0017 |
23.0255 |
32.9943 |
1.9428048133850098 |
162.3588 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
big_patent |
34.7641 |
7.8744 |
19.9826 |
29.208 |
2.8316469192504883 |
132.7475 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
launch/gov_report (validation) |
37.9246 |
8.5837 |
18.0274 |
34.0816 |
2.56695818901062 |
220.3747 |
pszemraj/long-t5-tglobal-base-16384-book-summary |
Summarization |
launch/gov_report (test) |
37.4438 |
8.2907 |
17.6893 |
33.7141 |
2.5776000022888184 |
214.9692 |
🔧 技术细节
文档未提供具体技术细节,故跳过此章节。
📄 许可证