Bart-large-paper2slides-summarizer開源摘要模型 - 精準把科研論文摘要成幻燈片內容

首頁

Bart Large Paper2slides Summarizer

由com3dian開發

基於Bart-Large架構的摘要模型，專門用於將科研論文內容精準摘要為適合幻燈片展示的形式。

文本生成

Transformers

英語開源協議:MIT #科研論文摘要 #無監督學習 #幻燈片生成

下載量 26

發布時間 : 7/10/2023

模型概述

該模型採用無監督學習技術在科研論文自動生成幻燈片數據集上微調，專注於科學文本的精準摘要，與擴展模型Bart-large-paper2slides-expander並行訓練。

模型特點

科學文本精準摘要

專門針對科研論文內容優化，能生成適合幻燈片展示的精準摘要。

無監督學習微調

採用無監督學習算法在科研論文自動生成幻燈片數據集上進行微調。

大規模模型架構

基於Bart-Large架構，包含12層編碼器和解碼器，具有強大的序列到序列處理能力。

模型能力

科學文本摘要

幻燈片內容生成

長文本壓縮

使用案例

學術研究

論文演示幻燈片生成

將科研論文內容自動摘要為適合演示的幻燈片格式。

在人工智能、數學等多個科學領域通過人工評估

教育

教學材料準備

快速從複雜科學文獻中提取關鍵信息用於教學演示。

🚀 Bart-Large 文本摘要模型

本項目的 Bart-Large-paper2slides-summarizer 模型，聚焦於精準概括 科學文本。它在科學論文自動幻燈片生成數據集上進行了微調，採用了無監督學習技術，算法源自論文 '僅使用單語語料庫的無監督機器翻譯'。該模型與同一貢獻者的 Bart-large-paper2slides-expander 並行訓練。

🚀 快速開始

安裝依賴

確保你已經安裝了 transformers 庫。你可以使用以下命令進行安裝：

pip install transformers

使用示例

要使用這個模型，你可以藉助 Hugging Face 的 Transformers 庫。以下是一個在 Python 中使用該模型的示例：

from transformers import BartTokenizer, BartForConditionalGeneration, pipeline

# 加載模型和分詞器
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 從輸入文本生成摘要
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)

# 解碼生成的摘要
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)

# 或者使用 pipeline API
summarizer = pipeline("summarization", model=model_name)
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)

✨ 主要特性

精準摘要：專注於科學文本的精準概括，在多個科學領域表現出色。
無監督學習：採用無監督學習技術進行微調，無需人工標註數據。
並行訓練：與 Bart-large-paper2slides-expander 並行訓練，提升性能。

📦 安裝指南

使用前請確保安裝 transformers 庫，安裝命令如下：

pip install transformers

💻 使用示例

基礎用法

from transformers import BartTokenizer, BartForConditionalGeneration, pipeline

# 加載模型和分詞器
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)

# 從輸入文本生成摘要
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)

# 解碼生成的摘要
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)

高級用法

# 使用 pipeline API
summarizer = pipeline("summarization", model=model_name)
input_text = "Your input text here..."
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)

📚 詳細文檔

模型詳情

模型架構：Bart-Large
微調數據集：科學論文自動幻燈片生成數據集
微調方法：無監督學習

Bart（雙向自迴歸變換器）是由 Facebook AI Research 開發的序列到序列（seq2seq）模型，在文本摘要、文本生成和機器翻譯等自然語言處理（NLP）任務中表現出色。

Bart-Large 是 Bart 模型的更大版本，包含 12 個編碼器和解碼器層，總共有 4 億個參數。

模型微調詳情

微調過程使用無監督學習技術在幻燈片生成數據集上進行訓練。無監督學習是指在沒有明確人工標註目標的情況下訓練模型，該模型學習將擴展模型提供的輸入反向概括為原始文本。

微調該模型使用的具體超參數和訓練細節如下：

屬性	詳情
批次大小	4
學習率	2e - 6
訓練步驟	3*7
優化器	AdamW

模型性能

Bart-Large 幻燈片生成模型在包括人工智能、數學、統計學、歷史、地理和氣候科學等廣泛的科學領域進行了全面的人工評估，以與 Bart-large-cnn 模型進行性能比較。

🔧 技術細節

在介紹更簡單的基於深度神經網絡（DNN）的 BagNets 之前，我們先回顧一下經典的特徵袋模型的主要元素。特徵袋錶示可以通過與詞袋錶示進行類比來描述。在詞袋模型中，我們統計文檔中詞彙表中每個單詞的出現次數。這個詞彙表包含重要的單詞（而不是像 “and” 或 “the” 這樣的常用詞）和詞簇（即語義相似的單詞，如 “gigantic” 和 “enormous” 被歸為一類）。詞彙表中每個單詞的計數被組裝成一個長的詞向量，這被稱為詞袋文檔表示，因為所有單詞的順序信息都丟失了。

同樣，特徵袋錶示基於視覺詞的詞彙表，這些視覺詞代表局部圖像特徵的簇。圖像的詞向量就是詞彙表中每個視覺詞的出現次數，這個詞向量被用作分類器（如支持向量機 SVM 或多層感知機 MLP）的輸入。許多成功的圖像分類模型都基於這個流程（Csurka 等人，2004；Jurie & Triggs，2005；Zhang 等人，2007；Lazebnik 等人，2006），有關最新概述請參閱 O’Hara & Draper（2011）。

減少順序計算的目標也是擴展神經 GPU [16]、ByteNet [18] 和 ConvS2S [9] 的基礎，這些模型都使用卷積神經網絡作為基本構建塊，為所有輸入和輸出位置並行計算隱藏表示。在這些模型中，關聯兩個任意輸入或輸出位置信號所需的操作次數隨位置之間的距離而增加，ConvS2S 是線性增加，ByteNet 是對數增加，這使得學習遠距離位置之間的依賴關係更加困難 [12]。在 Transformer 中，這被減少到恆定數量的操作，儘管由於對注意力加權位置進行平均而導致有效分辨率降低，我們通過 3.2 節中描述的多頭注意力機制來抵消這種影響。

自注意力（有時稱為內部注意力）是一種注意力機制，用於關聯單個序列的不同位置，以計算序列的表示。自注意力已成功應用於各種任務，包括閱讀理解、抽象摘要、文本蘊含和學習與任務無關的句子表示 [4, 27, 28, 22]。

端到端記憶網絡基於循環注意力機制而不是序列對齊的循環，並且在簡單語言問答和語言建模任務中表現良好 [34]。

據我們所知，Transformer 是第一個完全依賴自注意力來計算其輸入和輸出表示，而不使用序列對齊的循環神經網絡（RNN）或卷積的轉換模型。在接下來的部分，我們將描述 Transformer，闡述自注意力的動機，並討論其相對於 [17, 18] 和 [9] 等模型的優勢。