long-t5-tglobal-large-pubmed-3k-booksum-16384-WIPオープンソース要約モデル

Long T5 Tglobal Large Pubmed 3k Booksum 16384 WIP

pszemrajによって開発

Long-T5アーキテクチャに基づく大規模要約生成モデルで、長文書要約タスクに最適化されており、16384トークンのコンテキスト長をサポートします。

ダウンロード数 65

リリース時間 : 6/25/2022

モデル概要

このモデルはT5アーキテクチャを改良した長文要約生成モデルで、特に書籍要約や長文書要約タスク向けに最適化されています。PubMedとBookSumデータセットで訓練されており、最大16384トークンの入力テキストを処理できます。

長文処理能力

16384トークンの超長文コンテキスト処理をサポートし、書籍や長文書要約に適しています

多分野適応性

医学文献(PubMed)と書籍要約(BookSum)データセットで訓練されており、様々な専門分野に適用可能

高性能要約生成

BookSumテストセットで35.9969のROUGE-1スコアを達成し、優れた性能を発揮

長文要約生成

書籍内容の要約

専門文献要約

複数段落テキストの濃縮

学術研究

医学文献要約

PubMed医学研究論文の簡潔な要約を自動生成

専門分野で高い情報保持率を維持

出版業界

書籍内容要約

長編書籍の内容要約と章ごとの概要を生成

BookSumデータセットで優れた性能を発揮

ビジネス分析

長文レポート濃縮

ビジネスレポートや市場分析などの長文書を実行要約に濃縮

キー情報とデータ要点を保持

このモデルはまだ開発中（WIP）であり、完全に完成したり収束したりしていませんが、他の方の時間を節約できるかもしれないので共有しています。

このモデルは Stancld/longt5-tglobal-large-16384-pubmed-3k_steps のチェックポイントで、kmfoda/booksum データセットで約26エポック学習されています。
学習中の最大入力長はGPUの可用性に応じて8192から16384トークンまで変化します。このチェックポイントは、最終的な10エポック以上で最大入力長を16384トークンとして学習されています。

この開発中のチェックポイントを更新するたびに、ここにメモを投稿します。
- 2022年7月26日：さらに2エポックの学習を追加。メトリクスが、より調整された base バリアントとほぼ同じくらいの性能になり始めました。
- 2022年7月8日：A100で約4エポックの学習を行ったチェックポイントを追加。機能的なバッチサイズ128で約350ステップに相当します。
- 2022年7月4日：データセットの要約出力を1024 トークンにフィルタリングして、さらに6エポックの学習を行ったチェックポイントを追加。以前の短い要約の問題を解決しました。

Property	Details
モデル名	pszemraj/long-t5-tglobal-large-pubmed-3k-booksum-16384-WIP
タスクタイプ	Summarization
データセット	kmfoda/booksum, samsum, xsum, billsum, launch/gov_report
評価指標	ROUGE-1, ROUGE-2, ROUGE-L, ROUGE-LSUM, loss, gen_len