🚀 全量训练XSum数据集的BART摘要模型
本模型基于BART架构,在XSum数据集上进行微调,用于抽象式文本摘要任务。它能接收长文档输入并生成简洁的摘要,为信息提取提供高效解决方案。
✨ 主要特性
- 架构:采用BART(双向和自回归变换器)架构。
- 任务:专注于抽象式文本摘要。
- 数据集:基于XSum(极端摘要)数据集进行训练。
- 训练硬件:使用2块NVIDIA T4 GPU(借助Kaggle平台)。
- 训练时间:约9小时。
📦 安装指南
文档未提及具体安装步骤,可参考Hugging Face的transformers
库安装方法。
💻 使用示例
基础用法
from transformers import pipeline
summarizer = pipeline("summarization", model="bhargavis/fulltrain-xsum-bart")
input_text = """
Authorities have issued a warning after multiple sightings of a large brown bear in the woods. The bear is known to become aggressive if disturbed, and residents are urged to exercise caution. Last week, a group of hikers reported a close encounter with the animal. While no injuries were sustained, the bear displayed defensive behavior when approached. Wildlife officials advise keeping a safe distance and avoiding the area if possible. Those encountering the bear should remain calm, back away slowly, and refrain from making sudden movements. Officials continue to monitor the situation.
"""
summary = summarizer(input_text, max_length=64, min_length=30, do_sample=False)
print(summary[0]["summary_text"])
📚 详细文档
数据集详情
数据集类型 |
样本数量 |
训练集 |
204,045个样本 |
验证集 |
11,332个样本 |
测试集 |
11,334个样本 |
XSum数据集包含BBC文章及其对应的单句摘要。模型经过训练,旨在生成简洁且能抓住输入文档核心内容的摘要。
训练详情
训练参数 |
值 |
训练轮数 |
1 |
批次大小 |
8(每个设备) |
学习率 |
5e - 5 |
权重衰减 |
0.01 |
热身步数 |
500 |
FP16训练 |
启用 |
评估策略 |
每轮评估 |
最佳模型选择 |
基于验证损失(eval_loss) |
评估指标
模型使用以下指标进行评估:
指标 |
得分 |
训练损失 |
0.3771 |
验证损失 |
0.350379 |
Rouge - 1 |
0.401344019 |
Rouge - 2 |
0.188076798 |
Rouge - L |
0.33460693 |
这些指标使用rouge_scorer
库计算ROUGE分数。
训练参数
模型使用以下Hugging Face Seq2SeqTrainingArguments进行训练:
参数 |
值 |
保存策略 |
每轮保存 |
日志记录步数 |
1000 |
数据加载器工作进程数 |
4 |
预测时生成 |
启用 |
训练结束时加载最佳模型 |
启用 |
最佳模型评估指标 |
验证损失(eval_loss) |
分数越高越好 |
否(验证损失越低越好) |
报告工具 |
Weights & Biases (WandB) |
其他注意事项
- 该模型在XSum数据集(包含BBC文章)上进行微调,在其他领域或文本类型上的性能可能有所不同,且可能继承XSum数据集中存在的偏差。
- 模型基于训练中学习到的模式生成摘要,偶尔可能生成不准确或有误导性的摘要,尤其是对于复杂或有歧义的输入文本。
- 由于模型未在高度技术或特定领域的内容上进行明确训练,可能在处理此类内容时遇到困难。
- 模型仅支持英文摘要生成。
📄 许可证
本模型采用MIT许可证。