🚀 飛馬大模型隱私政策摘要生成器V2
本項目基於谷歌的Pegasus大模型,針對隱私政策文檔及其對應摘要進行了微調。它能夠將冗長複雜的隱私政策總結為簡潔易讀的內容,為自動化文檔摘要處理提供了有效的解決方案。
🚀 快速開始
使用以下代碼開始使用該模型:
import torch
from transformers import PegasusTokenizer, PegasusForConditionalGeneration
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
model_checkpoint = "AryehRotberg/Pegasus-Large-Privacy-Policy-Summarization-V2"
model = PegasusForConditionalGeneration.from_pretrained(model_checkpoint).to(device)
tokenizer = PegasusTokenizer.from_pretrained(model_checkpoint)
def summarize(text):
inputs = tokenizer(
f"Summarize the following document: {text}\nSummary: ",
padding="max_length",
truncation=True,
max_length=1024,
return_tensors="pt",
).to(device)
outputs = model.generate(**inputs)
return tokenizer.decode(outputs[0], skip_special_tokens=True)
✨ 主要特性
- 模型類型:基於Transformer的抽象摘要生成模型。
- 架構:谷歌Pegasus大模型。
- 微調數據集:從ToS;DR網站API提取的隱私政策文檔及其對應摘要,僅使用經過全面審核且有評級的網站文檔。
- 預期用途:將冗長複雜的隱私政策總結為簡潔易讀的摘要,適用於需要自動化文檔摘要的應用,如合規性分析和法律文檔處理。
- 侷限性:可能會遺漏隱私政策中的關鍵細微差別、法律術語或依賴上下文的細節。
📚 詳細文檔
用途
直接使用
該模型可用於將冗長的隱私政策文檔總結為簡潔的摘要,適用於需要自動化文檔摘要的應用,如合規性分析和法律文檔處理。
下游使用
該模型可進一步針對與法律、商業或政府政策文檔相關的特定領域摘要任務進行微調。
超出適用範圍的使用
- 法律建議:該模型不能替代專業的法律諮詢。
- 非隱私相關文本的摘要:在處理隱私政策之外的一般文本時,性能可能會下降。
- 高風險決策:在沒有人工監督的情況下,不應將其用於關鍵的法律或合規決策。
偏差、風險和侷限性
風險
- 摘要偏差:模型可能會過度強調隱私政策的某些部分,而遺漏關鍵信息。
- 誤解:法律術語可能無法在通俗易懂的摘要中準確體現。
- 數據敏感性:如果應用於不完整或有偏差的數據集,摘要結果可能會產生誤導。
建議
- 建議對摘要進行人工驗證,特別是在法律和合規性用例中。
- 用戶應意識到訓練數據中可能存在的偏差。
- 直接用戶和下游用戶都應瞭解模型的風險、偏差和侷限性。如需進一步建議,還需更多信息。
訓練詳情
訓練和評估數據
文檔和摘要從ToS;DR網站的API中提取,僅使用經過全面審核且有評級的網站文檔。
訓練過程
預處理
使用TextRank算法從文檔和摘要中提取前n個句子,文檔最多提取30個句子,摘要最多提取20個句子。使用BeautifulSoup庫解析HTML文本,並使用正則表達式去除多餘空格。然後將數據集劃分為訓練集和驗證集,測試集大小為0.2,隨機種子為42。
訓練超參數
- 輪數:10
- 權重衰減:0.01
- 批量大小:2(訓練和評估)
- 日誌記錄步數:10
- 熱身步數:500
- 評估策略:按輪次
- 保存策略:按輪次
- 最佳模型指標:ROUGE-1
- 結束時加載最佳模型:是
- 預測模式:predict_with_generate=True
- 優化器:Adam,學習率為0.001
- 調度器:帶熱身的線性調度器,熱身步數為500,訓練步數為1500
- 報告工具:MLflow
評估
指標
使用ROUGE分數(ROUGE-1、ROUGE-2、ROUGE-L)來衡量摘要質量。
結果
- rouge1:0.5141839409652631
- rouge2:0.2895850459169673
- rougeL:0.27764589200709305
- rougeLsum:0.2776501244969102
📄 許可證
本項目採用MIT許可證。