T5-Efficient-SMALL-DM768開源模型 - 通過深度架構提升下游應用表現

首頁

T5 Efficient Small Dm768

由google開發

T5-Efficient-SMALL-DM768 是 Google 原始 T5 的一個變體，採用深度窄型架構，優先增加模型深度以提高下游性能。

大型語言模型英語開源協議:Apache-2.0 #深度窄型架構 #英語預訓練 #高效參數利用

下載量 49

發布時間 : 3/2/2022

模型概述

這是一個僅預訓練的檢查點，採用深度窄型策略優化，適用於英語 NLP 任務，需要微調後才能實際使用。

模型特點

深度窄型架構

優先增加模型深度而非寬度，優化下游任務性能。

高效預訓練

在 C4 數據集上預訓練，使用跨度的掩碼語言建模目標。

參數高效

相比同等參數量的其他架構，在性能上更具優勢。

模型能力

文本生成

文本摘要

問答系統

文本分類

使用案例

文本處理

文本摘要

生成輸入文本的簡潔摘要。

問答系統

根據上下文回答問題。

分類任務

文本分類

對文本進行分類。

🚀 T5-Efficient-SMALL-DM768（深度窄化版本）

T5-Efficient-SMALL-DM768 是谷歌原始 T5 的一個變體，遵循 T5 模型架構。它是一個僅預訓練的檢查點，隨論文 高效擴展：來自預訓練和微調 Transformer 的見解 發佈，該論文由 Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler 撰寫。

簡而言之，該論文指出，與參數數量相近的其他模型架構相比，深度窄化的模型架構在下游性能方面更具優勢。

以下是論文中的引用：

我們通常建議採用深度窄化策略，即在考慮對其他維度進行統一擴展之前，優先增加模型的深度。這主要是因為，正如論文前面章節所示，深度對帕累託前沿的影響很大。具體來說，一個高而小（深度大且寬度窄）的模型通常比基礎模型更高效。同樣，一個高的基礎模型通常也可能比大型模型更高效。我們通常發現，無論模型大小如何，即使隨著層數的增加絕對性能可能會提高，但隨著層數的增加，帕累託效率的相對增益會逐漸減少，在 32 到 36 層時收斂。最後，我們注意到，這裡的效率概念涉及任何一個計算維度，即參數數量、浮點運算次數（FLOPs）或吞吐量（速度）。我們報告了所有三個關鍵的效率指標（參數數量、FLOPs 和速度），並將選擇考慮哪個計算維度的決定權留給實踐者。

更準確地說，模型深度定義為順序堆疊的 Transformer 塊的數量。因此，一系列詞嵌入會依次由每個 Transformer 塊進行處理。

🚀 快速開始

本模型為預訓練檢查點，若要實際使用，需進行微調。該檢查點以英文進行預訓練，因此僅適用於英文自然語言處理任務。你可參考以下示例進行模型微調：

PyTorch

文本摘要
問答系統
文本分類 - 注意：你需要對訓練示例進行輕微調整，使其適用於編碼器 - 解碼器模型。

Tensorflow

文本摘要
文本分類 - 注意：你需要對訓練示例進行輕微調整，使其適用於編碼器 - 解碼器模型。

JAX/Flax

文本摘要
文本分類 - 注意：你需要對訓練示例進行輕微調整，使其適用於編碼器 - 解碼器模型。

✨ 主要特性

論文表明，與參數數量相近的其他模型架構相比，深度窄化的模型架構在下游性能方面更具優勢。

📚 詳細文檔

詳細模型架構

此模型檢查點 - t5-efficient-small-dm768 - 屬於小型模型類型，具有以下變體：

dm 為 768

它有 9077 萬個參數，因此在全精度（fp32）下大約需要 363.1 MB 的內存，在半精度（fp16 或 bf16）下需要 181.55 MB 的內存。

原始 T5 模型架構的摘要如下：

模型	nl (el/dl)	ff	dm	kv	nh	參數數量
微型	4/4	1024	256	32	4	16M
小型	4/4	1536	384	32	8	31M
小	6/6	2048	512	32	8	60M
基礎	12/12	3072	768	64	12	220M
大型	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

使用的縮寫如下：

縮寫	定義
nl	Transformer 塊的數量（深度）
dm	嵌入向量的維度（Transformer 塊的輸出向量）
kv	鍵/值投影矩陣的維度
nh	注意力頭的數量
ff	Transformer 塊內中間向量的維度（前饋投影矩陣的大小）
el	編碼器中 Transformer 塊的數量（編碼器深度）
dl	解碼器中 Transformer 塊的數量（解碼器深度）
sh	表示注意力頭是共享的
skv	表示鍵 - 值投影矩陣是綁定的