🚀 飞马大模型隐私政策摘要生成器V2
本项目基于谷歌的Pegasus大模型,针对隐私政策文档及其对应摘要进行了微调。它能够将冗长复杂的隐私政策总结为简洁易读的内容,为自动化文档摘要处理提供了有效的解决方案。
🚀 快速开始
使用以下代码开始使用该模型:
import torch
from transformers import PegasusTokenizer, PegasusForConditionalGeneration
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_checkpoint = "AryehRotberg/Pegasus-Large-Privacy-Policy-Summarization-V2"
model = PegasusForConditionalGeneration.from_pretrained(model_checkpoint).to(device)
tokenizer = PegasusTokenizer.from_pretrained(model_checkpoint)
def summarize(text):
inputs = tokenizer(
f"Summarize the following document: {text}\nSummary: ",
padding="max_length",
truncation=True,
max_length=1024,
return_tensors="pt",
).to(device)
outputs = model.generate(**inputs)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
- 模型类型:基于Transformer的抽象摘要生成模型。
- 架构:谷歌Pegasus大模型。
- 微调数据集:从ToS;DR网站API提取的隐私政策文档及其对应摘要,仅使用经过全面审核且有评级的网站文档。
- 预期用途:将冗长复杂的隐私政策总结为简洁易读的摘要,适用于需要自动化文档摘要的应用,如合规性分析和法律文档处理。
- 局限性:可能会遗漏隐私政策中的关键细微差别、法律术语或依赖上下文的细节。
📚 详细文档
用途
直接使用
该模型可用于将冗长的隐私政策文档总结为简洁的摘要,适用于需要自动化文档摘要的应用,如合规性分析和法律文档处理。
下游使用
该模型可进一步针对与法律、商业或政府政策文档相关的特定领域摘要任务进行微调。
超出适用范围的使用
- 法律建议:该模型不能替代专业的法律咨询。
- 非隐私相关文本的摘要:在处理隐私政策之外的一般文本时,性能可能会下降。
- 高风险决策:在没有人工监督的情况下,不应将其用于关键的法律或合规决策。
偏差、风险和局限性
风险
- 摘要偏差:模型可能会过度强调隐私政策的某些部分,而遗漏关键信息。
- 误解:法律术语可能无法在通俗易懂的摘要中准确体现。
- 数据敏感性:如果应用于不完整或有偏差的数据集,摘要结果可能会产生误导。
建议
- 建议对摘要进行人工验证,特别是在法律和合规性用例中。
- 用户应意识到训练数据中可能存在的偏差。
- 直接用户和下游用户都应了解模型的风险、偏差和局限性。如需进一步建议,还需更多信息。
训练详情
训练和评估数据
文档和摘要从ToS;DR网站的API中提取,仅使用经过全面审核且有评级的网站文档。
训练过程
预处理
使用TextRank算法从文档和摘要中提取前n个句子,文档最多提取30个句子,摘要最多提取20个句子。使用BeautifulSoup库解析HTML文本,并使用正则表达式去除多余空格。然后将数据集划分为训练集和验证集,测试集大小为0.2,随机种子为42。
训练超参数
- 轮数:10
- 权重衰减:0.01
- 批量大小:2(训练和评估)
- 日志记录步数:10
- 热身步数:500
- 评估策略:按轮次
- 保存策略:按轮次
- 最佳模型指标:ROUGE-1
- 结束时加载最佳模型:是
- 预测模式:predict_with_generate=True
- 优化器:Adam,学习率为0.001
- 调度器:带热身的线性调度器,热身步数为500,训练步数为1500
- 报告工具:MLflow
评估
指标
使用ROUGE分数(ROUGE-1、ROUGE-2、ROUGE-L)来衡量摘要质量。
结果
- rouge1:0.5141839409652631
- rouge2:0.2895850459169673
- rougeL:0.27764589200709305
- rougeLsum:0.2776501244969102
📄 许可证
本项目采用MIT许可证。