🚀 文本摘要T5小模型變體
本項目基於 t5-small 模型進行微調,專門用於文本摘要任務。它能夠藉助 T5 的文本到文本處理方式,從長篇文本中生成簡潔、連貫且信息豐富的摘要。
🚀 快速開始
本模型用於將長篇文本總結為簡潔、有信息量的摘要,尤其適合需要快速把握詳細報告、研究論文或文章核心內容,而無需閱讀全文的專業人士和研究人員。
安裝
使用 pip
進行安裝:
pip install transformers
使用示例
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
⚠️ 重要提示
為使模型按預期工作,需要在輸入數據前添加 summarize:
前綴。
✨ 主要特性
- 基於 T5 模型架構,適用於文本摘要任務。
- 能夠生成簡潔、連貫且信息豐富的摘要。
- 藉助 ROUGE 指標評估,生成的摘要與人工撰寫的摘要高度契合。
📦 安裝指南
使用 pip
安裝所需的 transformers
庫:
pip install transformers
💻 使用示例
基礎用法
from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM
model_name = "KipperDev/t5_summarizer_model"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)
print(summary)
📚 詳細文檔
模型詳情
本模型是 t5-small 模型的變體,專門針對文本摘要任務進行了微調。它利用 T5 的文本到文本處理方式,旨在從長篇文本中生成簡潔、連貫且信息豐富的摘要。
訓練詳情
訓練數據
模型使用 Big Patent 數據集 進行訓練,該數據集包含 130 萬份美國專利文檔及其對應的人工撰寫摘要。選擇此數據集是因其豐富的語言表達和複雜的結構,能代表文檔摘要任務的挑戰性。訓練過程中使用了數據集的多個子集,以確保模型在不同類型文檔上具有廣泛的覆蓋範圍和穩健的性能。
訓練過程
訓練分三輪進行,初始設置為學習率 0.00002、批量大小 8 和 4 個訓練週期。後續輪次對這些參數進行了調整,分別為學習率 0.0003、批量大小 8 和 12 個訓練週期。此外,還應用了線性衰減學習率調度,以提高模型的學習效率。
訓練結果
使用 ROUGE 指標評估模型性能,結果顯示模型生成的摘要與人工撰寫的摘要高度契合。
屬性 |
詳情 |
評估損失 (Eval Loss) |
1.9984 |
Rouge-1 |
0.503 |
Rouge-2 |
0.286 |
Rouge-L |
0.3813 |
Rouge-Lsum |
0.3813 |
平均生成長度 (Gen Len) |
151.918 |
運行時間 (秒) |
714.4344 |
每秒樣本數 |
2.679 |
每秒步數 |
0.336 |
📄 許可證
本項目採用 MIT 許可證。
🔗 引用
BibTeX:
@article{kipper_t5_summarizer,
// SOON
}
👨💻 作者
本模型卡片由 Fernanda Kipper 撰寫。