Long T5 Tglobal Large Pubmed 3k Booksum 16384 WIP

L

Long T5 Tglobal Large Pubmed 3k Booksum 16384 WIP

由pszemraj開發

基於Long-T5架構的大規模摘要生成模型，專門針對長文檔摘要任務優化，支持16384個token的上下文長度。

開源協議:Apache-2.0 #長文本摘要 #書籍內容濃縮 #高ROUGE得分

下載量 65

發布時間 : 6/25/2022

模型概述

該模型是基於T5架構改進的長文本摘要生成模型，特別針對書籍摘要和長文檔摘要任務進行了優化。它在PubMed和BookSum數據集上進行了訓練，能夠處理長達16384個token的輸入文本。

模型特點

長文本處理能力

支持16384個token的超長上下文處理，適合書籍和長文檔摘要

多領域適應性

在醫學文獻(PubMed)和書籍摘要(BookSum)數據集上訓練，適用於多種專業領域

高性能摘要生成

在BookSum測試集上達到35.9969的ROUGE-1分數，表現出色

模型能力

長文本摘要生成

書籍內容總結

專業文獻摘要

多段落文本濃縮

使用案例

學術研究

醫學文獻摘要

自動生成PubMed醫學研究論文的簡明摘要

在專業領域保持較高的信息保留率

出版行業

書籍內容摘要

為長篇書籍生成內容摘要和章節概要

在BookSum數據集上表現優異

商業分析

長報告濃縮

將商業報告、市場分析等長文檔濃縮為執行摘要

保留關鍵信息和數據要點

🚀 long-t5-tglobal-large-pubmed-3k-booksum-16384-WIP

這是一個專注於文本摘要任務的模型檢查點，基於特定數據集訓練，能處理較長輸入文本，為長文檔摘要提供解決方案。

🚀 快速開始

⚠️ 重要提示

此模型仍在開發中（WIP），尚未完成或收斂，但分享出來或許能為其他人節省一些時間。

✨ 主要特性

基於 Stancld/longt5-tglobal-large-16384-pubmed-3k_steps 進行約 26 個週期的訓練，數據集為 kmfoda/booksum。
訓練期間最大輸入長度根據 GPU 可用性在 8192 到 16384 個標記之間變化，在最後 10 多個週期的訓練中，最大輸入長度為 16384 個標記。

📚 詳細文檔

更新記錄

2022 年 7 月 26 日：增加兩個週期的訓練，指標開始接近調優更好的 base 變體。
2022 年 7 月 8 日：添加在 A100 上訓練約 4 個週期的檢查點，相當於功能批量大小為 128 的約 350 步。
2022 年 7 月 4 日：添加經過六個額外週期訓練的檢查點，數據集摘要輸出過濾為 1024 標記，解決了之前摘要過短的問題。

對比信息

與 pszemraj/led-large-book-summary 進行對比。
- 推理 API 已禁用，因為計算量過大。

模型信息

屬性	詳情
模型類型	文本摘要模型
訓練數據	kmfoda/booksum

評估指標

kmfoda/booksum 數據集

指標類型	指標名稱	值
rouge	ROUGE - 1	35.9969
rouge	ROUGE - 2	5.9272
rouge	ROUGE - L	16.0136
rouge	ROUGE - LSUM	32.941
loss	loss	2.9339466094970703
gen_len	gen_len	283.7198

samsum 數據集

指標類型	指標名稱	值
rouge	ROUGE - 1	26.2412
rouge	ROUGE - 2	5.9791
rouge	ROUGE - L	18.7467
rouge	ROUGE - LSUM	22.5566
loss	loss	2.877626895904541
gen_len	gen_len	47.6532

xsum 數據集

指標類型	指標名稱	值
rouge	ROUGE - 1	19.3209
rouge	ROUGE - 2	2.7978
rouge	ROUGE - L	12.5816
rouge	ROUGE - LSUM	15.0239
loss	loss	4.483709335327148
gen_len	gen_len	82.729

billsum 數據集

指標類型	指標名稱	值
rouge	ROUGE - 1	36.5688
rouge	ROUGE - 2	12.5849
rouge	ROUGE - L	22.2461
rouge	ROUGE - LSUM	30.6507
loss	loss	2.6456267833709717
gen_len	gen_len	139.0398

launch/gov_report 數據集

指標類型	指標名稱	值
rouge	ROUGE - 1	37.0248
rouge	ROUGE - 2	9.0446
rouge	ROUGE - L	18.0521
rouge	ROUGE - LSUM	33.4723
loss	loss	3.381495237350464
gen_len	gen_len	211.2066

📄 許可證

本模型採用 Apache - 2.0 許可證。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

大型語言模型

Transformers 支持多種語言

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Transformers 英語

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

問答系統中文

AIbase

智啟未來，您的人工智能解決方案智庫

English 简体中文繁體中文にほんご

© 2025AIbase