T5-Efficient-SMALL-KV256開源模型 - 優化下游任務性能，免費微調使用

首頁

T5 Efficient Small Kv256

由google開發

T5-Efficient-SMALL-KV256是谷歌T5的變體，採用深度窄型架構優化下游任務性能，參數量1.17億，需微調使用。

大型語言模型英語開源協議:Apache-2.0 #深度窄型架構 #英語預訓練 #高效參數利用

下載量 16

發布時間 : 3/2/2022

模型概述

基於T5架構的深度窄型預訓練模型，優先增加模型深度以提升下游任務效率，需微調後用於英語NLP任務。

模型特點

深度窄型架構

通過增加Transformer層數（深度）而非寬度優化性能，論文證明該策略對下游任務更高效

KV投影優化

鍵值投影維度設置為256，平衡計算效率與模型容量

預訓練目標

使用C4數據集基於跨度的掩碼語言建模（MLM）目標訓練

模型能力

文本生成

文本摘要

問答系統

文本分類（需調整）

使用案例

文本生成

新聞摘要

微調後生成輸入文本的簡潔摘要

問答系統

開放域問答

根據上下文生成問題答案

🚀 T5-Efficient-SMALL-KV256 (深度窄化版本)

T5-Efficient-SMALL-KV256是谷歌原始T5的一個變體，遵循T5模型架構。它是一個僅預訓練的檢查點，隨論文**高效擴展：預訓練和微調Transformer的見解**發佈，該論文由Yi Tay、Mostafa Dehghani、Jinfeng Rao、William Fedus、Samira Abnar、Hyung Won Chung、Sharan Narang、Dani Yogatama、Ashish Vaswani、Donald Metzler撰寫。

簡而言之，該論文指出，與參數數量相近的其他模型架構相比，深度窄化的模型架構在下游任務性能上更具優勢。

引用論文內容如下：

我們通常推薦深度窄化策略，即在考慮對其他維度進行統一擴展之前，優先增加模型的深度。這主要是因為正如論文前面章節所示，深度對帕累託前沿的影響很大。具體來說，一個高而小（深度大且寬度窄）的模型通常比基礎模型更高效。同樣，一個高的基礎模型通常也比大模型更高效。我們通常發現，無論模型大小如何，即使隨著層數的增加絕對性能可能會提高，但隨著層數的增加，帕累託效率的相對增益會逐漸減小，在32到36層時收斂。最後，我們注意到這裡的效率概念涉及任何一個計算維度，即參數數量、浮點運算次數或吞吐量（速度）。我們報告了所有三個關鍵的效率指標（參數數量、浮點運算次數和速度），並將選擇考慮哪個計算維度的決定權留給從業者。

更準確地說，模型深度定義為順序堆疊的Transformer塊的數量。因此，單詞嵌入序列會依次由每個Transformer塊進行處理。

✨ 主要特性

模型架構細節

此模型檢查點 - t5-efficient-small-kv256 - 屬於小型模型類型，具有以下變體：

鍵值（kv）維度為 256

它有1.1714億個參數，因此在全精度（fp32）下大約需要468.58 MB的內存，在半精度（fp16 或 bf16）下需要234.29 MB的內存。

原始 T5模型架構的總結如下：

模型	nl (el/dl)	ff	dm	kv	nh	參數數量
Tiny	4/4	1024	256	32	4	16M
Mini	4/4	1536	384	32	8	31M
Small	6/6	2048	512	32	8	60M
Base	12/12	3072	768	64	12	220M
Large	24/24	4096	1024	64	16	738M
Xl	24/24	16384	1024	128	32	3B
XXl	24/24	65536	1024	128	128	11B

以下是使用的縮寫說明：

屬性	詳情
nl	變壓器塊的數量（深度）
dm	嵌入向量的維度（變壓器塊的輸出向量）
kv	鍵/值投影矩陣的維度
nh	注意力頭的數量
ff	變壓器塊內中間向量的維度（前饋投影矩陣的大小）
el	編碼器中的變壓器塊數量（編碼器深度）
dl	解碼器中的變壓器塊數量（解碼器深度）
sh	表示注意力頭是共享的
skv	表示鍵值投影矩陣是綁定的

如果一個模型檢查點沒有特定的 el 或 dl，則編碼器層和解碼器層的數量都對應於 nl。

預訓練

該檢查點在大規模、清理後的通用爬蟲數據集（C4）上進行了524288步的預訓練，採用基於跨度的掩碼語言建模（MLM）目標。

微調

⚠️ 重要提示

此模型是一個預訓練檢查點，需要進行微調才能實際使用。該檢查點是用英語進行預訓練的，因此僅適用於英語自然語言處理任務。

你可以參考以下示例來微調該模型：

PyTorch:

文本摘要
問答系統
文本分類 - 注意：你需要對這裡的訓練示例進行一些微調，使其適用於編碼器 - 解碼器模型。

TensorFlow:

文本摘要
文本分類 - 注意：你需要對這裡的訓練示例進行一些微調，使其適用於編碼器 - 解碼器模型。

JAX/Flax:

文本摘要
文本分類 - 注意：你需要對這裡的訓練示例進行一些微調，使其適用於編碼器 - 解碼器模型。

下游性能

待補充表格（如果有）

計算複雜度

待補充表格（如果有）

📚 詳細文檔

我們強烈建議讀者仔細閱讀原始論文**高效擴展：預訓練和微調Transformer的見解**，以更深入地瞭解此模型檢查點。正如此問題中所解釋的，包含 sh 或 skv 模型架構變體的檢查點尚未移植到Transformers庫中，因為它們可能實際用途有限且缺乏更詳細的描述。這些檢查點保留在此處，可能會在未來進行移植。