long-t5-tglobal-base-16384-booksum-V11-big_patent-V2開源模型 - 輕鬆搞定書籍及文檔長文本摘要

首頁

Long T5 Tglobal Base 16384 Booksum V11 Big Patent V2

由pszemraj開發

基於T5架構的長文本摘要生成模型，支持處理長達16384個token的輸入，適用於書籍和技術文檔摘要任務。

文本生成

Transformers

開源協議:Bsd-3-clause #長文檔摘要 #技術文檔處理 #16384長文本

下載量 21

發布時間 : 7/31/2022

模型概述

該模型是基於T5架構優化的長文本摘要生成模型，專門針對書籍和技術文檔的摘要任務進行了訓練。它能夠處理長達16384個token的輸入序列，適用於生成書籍章節、技術專利等長文檔的簡潔摘要。

模型特點

超長上下文處理

支持處理長達16384個token的輸入序列，適合書籍等長文檔摘要

多領域適應

同時在書籍摘要(kmfoda/booksum)和技術專利(big_patent)數據集上訓練

高效注意力機制

採用TGlobal注意力變體，優化長序列處理效率

模型能力

長文本摘要生成

書籍章節摘要

技術文檔摘要

內容濃縮

使用案例

出版與教育

書籍章節摘要

為書籍章節生成簡潔的內容摘要

在booksum數據集上ROUGE-1得分23.14

技術文檔處理

專利文檔摘要

為技術專利文檔生成關鍵內容摘要

在big_patent數據集上訓練優化

🚀 pszemraj/long - t5 - tglobal - base - 16384 - booksum - V11 - big_patent - V2模型

該模型主要用於文本摘要任務，能夠處理長文檔的摘要生成，在多個數據集上進行了訓練和測試，具有一定的性能表現。

✨ 主要特性

適用任務廣泛：適用於多種文本摘要任務，如書籍、科學論文、講座等不同類型文本的摘要生成。
處理長序列：能夠處理較長的文本序列，對於長文檔的摘要生成有較好的效果。
多數據集訓練：在多個數據集上進行訓練，如kmfoda/booksum、big_patent等，提升了模型的泛化能力。
多指標評估：使用多種評估指標，如ROUGE系列指標，對模型的性能進行了全面評估。

📦 安裝指南

文檔未提供具體安裝步驟，故跳過此章節。

💻 使用示例

基礎用法

文檔未提供基礎用法的代碼示例，故跳過此部分。

高級用法

文檔未提供高級用法的代碼示例，故跳過此部分。

📚 詳細文檔

模型參數

屬性	詳情
最大長度 (`max_length`)	64
最小長度 (`min_length`)	8
無重複n - gram大小 (`no_repeat_ngram_size`)	3
提前停止 (`early_stopping`)	true
重複懲罰 (`repetition_penalty`)	3.5
長度懲罰 (`length_penalty`)	0.3
編碼器無重複n - gram大小 (`encoder_no_repeat_ngram_size`)	3
束搜索數量 (`num_beams`)	4

模型測試結果

數據集：kmfoda/booksum
- ROUGE - 1：23.1439
- ROUGE - 2：3.2393
- ROUGE - L：12.7038
- ROUGE - LSUM：19.8101
- 損失 (loss)：2.766307830810547
- 生成長度 (gen_len)：63.4493
數據集：samsum
- ROUGE - 1：26.8026
- ROUGE - 2：6.0656
- ROUGE - L：20.0098
- ROUGE - LSUM：21.9115
- 損失 (loss)：2.317471981048584
- 生成長度 (gen_len)：19.1111
數據集：xsum
- ROUGE - 1：25.2061
- ROUGE - 2：4.7048
- ROUGE - L：17.8593
- ROUGE - LSUM：18.0798
- 損失 (loss)：3.003053665161133
- 生成長度 (gen_len)：27.4815

示例文本及標題

地震相關文本：“large earthquakes along a given fault segment do not occur at random intervals because it takes time to accumulate the strain energy for the rupture. …”，示例標題為“earthquakes”
科學論文相關文本：“A typical feed - forward neural field algorithm. …”，示例標題為“scientific paper”
轉錄音頻講座相關文本：“Is a else or outside the cob and tree written being of early client rope …”，示例標題為“transcribed audio - lecture”
BigBird博客介紹相關文本：“Transformer - based models have shown to be very useful for many NLP tasks. …”，示例標題為“bigbird blog intro”
Rick and Morty相關文本：“To be fair, you have to have a very high IQ to understand Rick and Morty. …”，示例標題為“Richard & Mortimer”