模型概述
模型特點
模型能力
使用案例
🚀 t5-base-dutch
t5-base-dutch 是一個基於荷蘭語的預訓練模型,由 Yeb Havinga 和 Dat Nguyen 在 Hugging Face 社區周 期間開發。該模型可用於文本摘要和翻譯等自然語言處理任務。
🚀 快速開始
本模型是預訓練的 T5 模型,在用於下游任務之前需要進行微調。右側的推理小部件已關閉。若要查看荷蘭語 CNN 摘要模型的演示,請訪問 Hugging Face Spaces 中的 Netherformer 📰 示例應用程序!
✨ 主要特性
- 參數規模:此 t5 模型擁有 222M 個參數。
- 預訓練目標:在數據集
mc4_nl_cleaned
配置full
上,以掩碼語言建模(去噪令牌跨度損壞)為目標進行預訓練。 - 訓練配置:訓練了 1 個週期,持續時間為 2 天 9 小時,序列長度為 512,批量大小為 128,總步數為 527500(處理了 35B 個令牌)。
- 評估指標:預訓練評估損失和準確率分別為 1.38 和 0.70。
📦 安裝指南
文檔中未提及安裝步驟,故跳過此章節。
💻 使用示例
文檔中未提供代碼示例,故跳過此章節。
📚 詳細文檔
分詞器
該模型使用了一個區分大小寫的 SentencePiece 分詞器,配置了 Nmt, NFKC, Replace multi - space to single - space
歸一化器,共有 32003 個令牌。它是在荷蘭語的 mc4 數據集上,使用 Huggingface Transformers 的 [Flax 示例](https://github.com/huggingface/transformers/tree/master/examples/flax/language - modeling) 腳本進行訓練的。詳情請參考 ./raw/main/tokenizer.json。
數據集
- 預訓練數據集:下面列出的所有模型均在 清理後的荷蘭語 mC4 上進行預訓練。該數據集是對原始 mC4 進行清理後的版本,清理操作包括:
- 移除包含荷蘭語和英語 [髒話列表](https://github.com/LDNOOBW/List - of - Dirty - Naughty - Obscene - and - Otherwise - Bad - Words) 中詞彙的文檔。
- 移除單詞數少於 3 個的句子。
- 移除包含超過 1000 個字符的單詞的句子。
- 移除句子數少於 5 個的文檔。
- 移除包含 "javascript", "lorum ipsum", "terms of use", "privacy policy", "cookie policy", "uses cookies", "use of cookies", "use cookies", "elementen ontbreken", "deze printversie" 的文檔。
- 混合數據集:荷蘭語和英語模型在荷蘭語 mC4 和英語 C4 的 50/50% 混合數據集上進行預訓練。
- 微調數據集:翻譯模型在 CCMatrix 上進行微調。
荷蘭語 T5 模型
已經訓練了三種類型的 [荷蘭語 T5 模型(博客)](https://huggingface.co/spaces/yhavinga/pre - training - dutch - t5 - models)。t5 - base - dutch
是唯一使用原始 T5 配置的模型。其他模型類型 t5 - v1.1 和 t5 - eff 使用 gated - relu
而非 relu
作為激活函數,並且除非訓練出現發散情況(如 t5 - v1.1 - large - dutch - cased
),否則以 0.0
的丟棄率進行訓練。T5 - eff 模型在層數上有所不同。以下表格列出了這些模型的幾個維度信息:
t5-base-dutch | t5-v1.1-base-dutch-uncased | t5-v1.1-base-dutch-cased | t5-v1.1-large-dutch-cased | t5-v1_1-base-dutch-english-cased | t5-v1_1-base-dutch-english-cased-1024 | t5-small-24L-dutch-english | t5-xl-4L-dutch-english-cased | t5-base-36L-dutch-english-cased | t5-eff-xl-8l-dutch-english-cased | t5-eff-large-8l-dutch-english-cased | |
---|---|---|---|---|---|---|---|---|---|---|---|
類型 | t5 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5-v1.1 | t5 eff | t5 eff | t5 eff | t5 eff | t5 eff |
模型維度 | 768 | 768 | 768 | 1024 | 768 | 768 | 512 | 2048 | 768 | 1024 | 1024 |
前饋網絡維度 | 3072 | 2048 | 2048 | 2816 | 2048 | 2048 | 1920 | 5120 | 2560 | 16384 | 4096 |
頭數 | 12 | 12 | 12 | 16 | 12 | 12 | 8 | 32 | 12 | 32 | 16 |
鍵值維度 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 64 |
層數 | 12 | 12 | 12 | 24 | 12 | 12 | 24 | 4 | 36 | 8 | 8 |
參數數量 | 223M | 248M | 248M | 783M | 248M | 248M | 250M | 585M | 729M | 1241M | 335M |
前饋投影激活函數 | relu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu | gated-gelu |
丟棄率 | 0.1 | 0.0 | 0.0 | 0.1 | 0.0 | 0.0 | 0.0 | 0.1 | 0.0 | 0.0 | 0.0 |
數據集 | mc4_nl_cleaned | mc4_nl_cleaned full | mc4_nl_cleaned full | mc4_nl_cleaned | mc4_nl_cleaned small_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl | mc4_nl_cleaned large_en_nl |
訓練序列長度 | 512 | 1024 | 1024 | 512 | 512 | 1024 | 512 | 512 | 512 | 512 | 512 |
批量大小 | 128 | 64 | 64 | 64 | 128 | 64 | 128 | 512 | 512 | 64 | 128 |
總步數 | 527500 | 1014525 | 1210154 | 1120k/2427498 | 2839630 | 1520k/3397024 | 851852 | 212963 | 212963 | 538k/1703705 | 851850 |
週期數 | 1 | 2 | 2 | 2 | 10 | 4 | 1 | 1 | 1 | 1 | 1 |
持續時間 | 2d9h | 5d5h | 6d6h | 8d13h | 11d18h | 9d1h | 4d10h | 6d1h | 17d15h | 4d 19h | 3d 23h |
優化器 | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor | adafactor |
學習率 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.005 | 0.009 | 0.005 | 0.005 |
預熱步數 | 10000.0 | 10000.0 | 10000.0 | 10000.0 | 10000.0 | 5000.0 | 20000.0 | 2500.0 | 1000.0 | 1500.0 | 1500.0 |
評估損失 | 1.38 | 1.20 | 0.96 | 1.07 | 1.11 | 1.13 | 1.18 | 1.27 | 1.05 | 1.3019 | 1.15 |
評估準確率 | 0.70 | 0.73 | 0.78 | 0.76 | 0.75 | 0.74 | 0.74 | 0.72 | 0.76 | 0.71 | 0.74 |
評估
上述列表中的大多數模型都針對摘要和翻譯任務進行了微調。下圖展示了評估分數,其中 x 軸表示翻譯的 Bleu 分數(越高越好),y 軸表示摘要的 Rouge1 翻譯分數(越高越好)。點的大小與模型大小成正比。推理速度較快的模型用綠色表示,較慢的用藍色表示。
評估是在使用以下設置訓練的微調模型上進行的:
摘要任務 | 翻譯任務 | |
---|---|---|
數據集 | CNN Dailymail NL | CCMatrix en -> nl |
訓練樣本數 | 50K | 50K |
優化器 | Adam | Adam |
學習率 | 0.001 | 0.0005 |
源序列長度 | 1024 | 128 |
目標序列長度 | 142 | 128 |
標籤平滑 | 0.05 | 0.1 |
評估樣本數 | 1000 | 1000 |
請注意,訓練數據量僅限於總數據集大小的一部分,因此以下分數僅可用於比較“遷移學習”能力。此評估的微調檢查點未保存,因為它們僅用於比較預訓練模型。
摘要任務的評估指標是測試分割中 1000 篇文檔的 Rouge 分數:
t5-base-dutch | t5-v1.1-base-dutch-uncased | t5-v1.1-base-dutch-cased | t5-v1_1-base-dutch-english-cased | t5-v1_1-base-dutch-english-cased-1024 | t5-small-24L-dutch-english | t5-xl-4L-dutch-english-cased | t5-base-36L-dutch-english-cased | t5-eff-large-8l-dutch-english-cased | mt5-base | |
---|---|---|---|---|---|---|---|---|---|---|
rouge1 | 33.38 | 33.97 | 34.39 | 33.38 | 34.97 | 34.38 | 30.35 | 14.23 | 34.04 | 33.25 |
rouge2 | 13.32 | 13.85 | 13.98 | 13.47 | 14.01 | 13.89 | 11.57 | 14.23 | 13.76 | 12.74 |
rougeL | 24.22 | 24.72 | 25.1 | 24.34 | 24.99 | 25.25 | 22.69 | 25.05 | 24.75 | 23.5 |
rougeLsum | 30.23 | 30.9 | 31.44 | 30.51 | 32.01 | 31.38 | 27.5 | 32.12 | 31.12 | 30.15 |
每秒處理樣本數 | 3.18 | 3.02 | 2.99 | 3.22 | 2.97 | 1.57 | 2.8 | 0.61 | 3.27 | 1.22 |
以下模型針對英語到荷蘭語的翻譯任務進行了評估。請注意,前四個模型僅在荷蘭語上進行預訓練。它們仍然表現良好,可能是因為翻譯方向是從英語到荷蘭語。報告的數字是測試分割中 1000 篇文檔的 Bleu 分數:
🔧 技術細節
請參考原始的 T5 論文和《Scale Efficiently》論文,以獲取有關 T5 架構和配置的更多信息。不過需要注意的是,此模型(t5 - base - dutch)與這些項目無關,並非“官方”檢查點:
- Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer 作者:Colin Raffel, Noam Shazeer, Adam Roberts, Katherine Lee, Sharan Narang, Michael Matena, Yanqi Zhou, Wei Li, Peter J. Liu。
- Scale Efficiently: Insights from Pre-training and Fine-tuning Transformers 作者:Yi Tay, Mostafa Dehghani, Jinfeng Rao, William Fedus, Samira Abnar, Hyung Won Chung, Sharan Narang, Dani Yogatama, Ashish Vaswani, Donald Metzler。
📄 許可證
本項目採用 apache-2.0
許可證。



