🚀 文本摘要T5小模型变体
本项目基于 t5-small 模型进行微调,专门用于文本摘要任务。它能够借助 T5 的文本到文本处理方式,从长篇文本中生成简洁、连贯且信息丰富的摘要。
🚀 快速开始
本模型用于将长篇文本总结为简洁、有信息量的摘要,尤其适合需要快速把握详细报告、研究论文或文章核心内容,而无需阅读全文的专业人士和研究人员。
安装
使用 pip
进行安装:
pip install transformers
使用示例
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
⚠️ 重要提示
为使模型按预期工作,需要在输入数据前添加 summarize:
前缀。
✨ 主要特性
- 基于 T5 模型架构,适用于文本摘要任务。
- 能够生成简洁、连贯且信息丰富的摘要。
- 借助 ROUGE 指标评估,生成的摘要与人工撰写的摘要高度契合。
📦 安装指南
使用 pip
安装所需的 transformers
库:
pip install transformers
💻 使用示例
基础用法
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
📚 详细文档
模型详情
本模型是 t5-small 模型的变体,专门针对文本摘要任务进行了微调。它利用 T5 的文本到文本处理方式,旨在从长篇文本中生成简洁、连贯且信息丰富的摘要。
训练详情
训练数据
模型使用 Big Patent 数据集 进行训练,该数据集包含 130 万份美国专利文档及其对应的人工撰写摘要。选择此数据集是因其丰富的语言表达和复杂的结构,能代表文档摘要任务的挑战性。训练过程中使用了数据集的多个子集,以确保模型在不同类型文档上具有广泛的覆盖范围和稳健的性能。
训练过程
训练分三轮进行,初始设置为学习率 0.00002、批量大小 8 和 4 个训练周期。后续轮次对这些参数进行了调整,分别为学习率 0.0003、批量大小 8 和 12 个训练周期。此外,还应用了线性衰减学习率调度,以提高模型的学习效率。
训练结果
使用 ROUGE 指标评估模型性能,结果显示模型生成的摘要与人工撰写的摘要高度契合。
属性 |
详情 |
评估损失 (Eval Loss) |
1.9984 |
Rouge-1 |
0.503 |
Rouge-2 |
0.286 |
Rouge-L |
0.3813 |
Rouge-Lsum |
0.3813 |
平均生成长度 (Gen Len) |
151.918 |
运行时间 (秒) |
714.4344 |
每秒样本数 |
2.679 |
每秒步数 |
0.336 |
📄 许可证
本项目采用 MIT 许可证。
🔗 引用
BibTeX:
@article{kipper_t5_summarizer,
// SOON
}
👨💻 作者
本模型卡片由 Fernanda Kipper 撰写。