bart_summarizer_model開源文本摘要模型 - 免費將長文轉化為簡潔連貫摘要

首頁

Bart Summarizer Model

由KipperDev開發

基於 facebook/bart-base 微調的文本摘要模型，擅長從長篇文本生成簡潔、連貫的摘要。

文本生成

Transformers

英語開源協議:MIT #專利摘要生成 #BART微調 #長文本壓縮

下載量 30

發布時間 : 1/25/2024

模型概述

該模型利用 BART 的雙向編碼器和自迴歸解碼器架構，專門針對文本摘要任務進行優化，適用於處理研究報告、論文或文章等長篇文本的摘要生成。

模型特點

專利數據微調

使用 Big Patent Dataset 進行訓練，能夠處理技術性較強的專利文檔摘要。

前綴提示優化

通過添加 'summarize:' 前綴提示，顯著提升模型摘要生成質量。

多輪次訓練

採用三輪不同參數的訓練策略，逐步優化模型性能。

模型能力

長文本壓縮

技術文檔摘要

核心內容提取

使用案例

專業文檔處理

專利文檔摘要

快速生成專利文檔的技術要點摘要

ROUGE-1 得分達 0.5007

研究報告總結

提取科研報告的核心發現和結論

內容創作輔助

文章摘要生成

為長篇新聞或博客文章生成簡明摘要

🚀 文本摘要模型：KipperDev/bart_summarizer_model

本項目基於微調的facebook/bart-base模型，專注於文本摘要任務。它能夠從長篇文本中生成簡潔、連貫且信息豐富的摘要，幫助用戶快速把握文檔核心內容，尤其適合專業人士和研究人員快速瞭解詳細報告、研究論文或文章的要點。

🚀 快速開始

本模型用於將長篇文本概括為簡潔、有信息量的摘要。以下是使用步驟：

安裝依賴

使用pip進行安裝：

pip install transformers

Python代碼示例

from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

model_name = "KipperDev/bart_summarizer_model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

# 示例用法
prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

⚠️ 重要提示

為使模型按預期工作，需要在輸入數據前添加 summarize: 前綴。

✨ 主要特性

基於facebook/bart-base模型微調，專為文本摘要任務設計。
利用BART的雙向編碼器和自迴歸解碼器，生成高質量摘要。
經過大規模專利數據集訓練，能處理複雜文本結構。

📦 安裝指南

使用pip安裝所需的transformers庫：

pip install transformers

💻 使用示例

基礎用法

from transformers import pipeline
from transformers import AutoTokenizer
from transformers import AutoModelForSeq2SeqLM

model_name = "KipperDev/bart_summarizer_model"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSeq2SeqLM.from_pretrained(model_name)
summarizer = pipeline("summarization", model=model, tokenizer=tokenizer)

prefix = "summarize: "
input_text = "Your input text here."
input_ids = tokenizer.encode(prefix + input_text, return_tensors="pt")
summary_ids = model.generate(input_ids)
summary = tokenizer.decode(summary_ids[0], skip_special_tokens=True)

print(summary)

📚 詳細文檔

訓練詳情

訓練數據

模型使用 Big Patent Dataset 進行訓練，該數據集包含130萬份美國專利文檔及其對應的人工編寫摘要。選擇此數據集是因為其語言豐富、結構複雜，能代表文檔摘要任務的挑戰性。訓練過程中使用了數據集的多個子集，以確保模型在不同類型文檔上具有廣泛的覆蓋範圍和強大的性能。

訓練過程

訓練分三輪進行，初始設置為學習率0.00002、批次大小8和4個訓練週期。後續輪次調整參數以進一步優化模型性能，分別調整為學習率0.0003、批次大小8和12個訓練週期。此外，應用了線性衰減學習率調度，以提高模型的學習效率。

訓練結果

使用ROUGE指標評估模型性能，結果表明模型生成的摘要與人工編寫的摘要高度一致。

指標	數值
評估損失 (Eval Loss)	1.9244
Rouge-1	0.5007
Rouge-2	0.2704
Rouge-L	0.3627
Rouge-Lsum	0.3636
平均生成長度 (Gen Len)	122.1489
運行時間 (秒)	1459.3826
每秒樣本數	1.312
每秒步數	0.164

📄 許可證

本項目採用MIT許可證。

📖 引用

BibTeX:

@article{kipper_t5_summarizer,
 // SOON
}

👨‍💻 作者

本模型卡片由 Fernanda Kipper 編寫。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫