🚀 Bart-Large 文本摘要模型
本項目的 Bart-Large-paper2slides-summarizer 模型,聚焦於精準概括 科學文本。它在 科學論文自動幻燈片生成數據集 上進行了微調,採用了無監督學習技術,算法源自論文 '僅使用單語語料庫的無監督機器翻譯'。該模型與同一貢獻者的 Bart-large-paper2slides-expander 並行訓練。
🚀 快速開始
安裝依賴
確保你已經安裝了 transformers
庫。你可以使用以下命令進行安裝:
pip install transformers
使用示例
要使用這個模型,你可以藉助 Hugging Face 的 Transformers 庫。以下是一個在 Python 中使用該模型的示例:
from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)
summarizer = pipeline("summarization", model=model_name)
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)
✨ 主要特性
📦 安裝指南
使用前請確保安裝 transformers
庫,安裝命令如下:
pip install transformers
💻 使用示例
基礎用法
from transformers import BartTokenizer, BartForConditionalGeneration, pipeline
model_name = "com3dian/Bart-large-paper2slides-summarizer"
tokenizer = BartTokenizer.from_pretrained(model_name)
model = BartForConditionalGeneration.from_pretrained(model_name)
input_text = "Your input text here..."
input_ids = tokenizer.encode(input_text, return_tensors="pt")
output = model.generate(input_ids)
summary = tokenizer.decode(output[0], skip_special_tokens=True)
print(summary)
高級用法
summarizer = pipeline("summarization", model=model_name)
input_text = "Your input text here..."
summary = summarizer(input_text, max_length=50, min_length=30, do_sample=False)
print(summary)
📚 詳細文檔
模型詳情
Bart(雙向自迴歸變換器)是由 Facebook AI Research 開發的序列到序列(seq2seq)模型,在文本摘要、文本生成和機器翻譯等自然語言處理(NLP)任務中表現出色。
Bart-Large 是 Bart 模型的更大版本,包含 12 個編碼器和解碼器層,總共有 4 億個參數。
模型微調詳情
微調過程使用無監督學習技術在幻燈片生成數據集上進行訓練。無監督學習是指在沒有明確人工標註目標的情況下訓練模型,該模型學習將擴展模型提供的輸入反向概括為原始文本。
微調該模型使用的具體超參數和訓練細節如下:
屬性 |
詳情 |
批次大小 |
4 |
學習率 |
2e - 6 |
訓練步驟 |
3*7 |
優化器 |
AdamW |
模型性能
Bart-Large 幻燈片生成模型在包括人工智能、數學、統計學、歷史、地理和氣候科學等廣泛的科學領域進行了全面的人工評估,以與 Bart-large-cnn 模型進行性能比較。
🔧 技術細節
在介紹更簡單的基於深度神經網絡(DNN)的 BagNets 之前,我們先回顧一下經典的特徵袋模型的主要元素。特徵袋錶示可以通過與詞袋錶示進行類比來描述。在詞袋模型中,我們統計文檔中詞彙表中每個單詞的出現次數。這個詞彙表包含重要的單詞(而不是像 “and” 或 “the” 這樣的常用詞)和詞簇(即語義相似的單詞,如 “gigantic” 和 “enormous” 被歸為一類)。詞彙表中每個單詞的計數被組裝成一個長的詞向量,這被稱為詞袋文檔表示,因為所有單詞的順序信息都丟失了。
同樣,特徵袋錶示基於視覺詞的詞彙表,這些視覺詞代表局部圖像特徵的簇。圖像的詞向量就是詞彙表中每個視覺詞的出現次數,這個詞向量被用作分類器(如支持向量機 SVM 或多層感知機 MLP)的輸入。許多成功的圖像分類模型都基於這個流程(Csurka 等人,2004;Jurie & Triggs,2005;Zhang 等人,2007;Lazebnik 等人,2006),有關最新概述請參閱 O’Hara & Draper(2011)。
減少順序計算的目標也是擴展神經 GPU [16]、ByteNet [18] 和 ConvS2S [9] 的基礎,這些模型都使用卷積神經網絡作為基本構建塊,為所有輸入和輸出位置並行計算隱藏表示。在這些模型中,關聯兩個任意輸入或輸出位置信號所需的操作次數隨位置之間的距離而增加,ConvS2S 是線性增加,ByteNet 是對數增加,這使得學習遠距離位置之間的依賴關係更加困難 [12]。在 Transformer 中,這被減少到恆定數量的操作,儘管由於對注意力加權位置進行平均而導致有效分辨率降低,我們通過 3.2 節中描述的多頭注意力機制來抵消這種影響。
自注意力(有時稱為內部注意力)是一種注意力機制,用於關聯單個序列的不同位置,以計算序列的表示。自注意力已成功應用於各種任務,包括閱讀理解、抽象摘要、文本蘊含和學習與任務無關的句子表示 [4, 27, 28, 22]。
端到端記憶網絡基於循環注意力機制而不是序列對齊的循環,並且在簡單語言問答和語言建模任務中表現良好 [34]。
據我們所知,Transformer 是第一個完全依賴自注意力來計算其輸入和輸出表示,而不使用序列對齊的循環神經網絡(RNN)或卷積的轉換模型。在接下來的部分,我們將描述 Transformer,闡述自注意力的動機,並討論其相對於 [17, 18] 和 [9] 等模型的優勢。
📄 許可證
本模型及相關代碼遵循 MIT 許可證 發佈。
👏 致謝
我們感謝 Bart 模型的作者和幻燈片生成數據集的創建者的寶貴貢獻,正是他們的工作使得這個微調模型得以開發。
如果您使用了這個模型或發現它對您的工作有幫助,請考慮引用 Bart 模型的原始論文、幻燈片生成數據集以及 這篇論文,以向相關作者提供恰當的引用。