t5-base-nl36-finnish開源模型 - 芬蘭語預訓練，微調後適用於下游任務

首頁

T5 Base Nl36 Finnish

由Finnish-NLP開發

基於芬蘭語預訓練的T5模型，採用基於跨度的掩碼語言建模目標，需針對下游任務微調後使用

大型語言模型其他開源協議:Apache-2.0 #芬蘭語文本生成 #深度窄型架構 #跨任務微調

下載量 19

發布時間 : 4/15/2022

模型概述

這是一個基於自監督方式在大量芬蘭語語料上預訓練的T5模型，採用編碼器-解碼器架構，處理所有NLP問題為文本到文本格式。模型需針對特定任務微調後才能實際應用。

模型特點

高效深度架構

採用36層transformer的深度-窄型架構，相比標準T5-base的12層有更好性能

改進的預訓練技術

使用T5 v1.1改進：GEGLU激活函數、無dropout預訓練、純MLM目標訓練

高質量訓練數據

使用經過嚴格清洗的76GB芬蘭語文本，包含維基百科、新聞等多種來源

模型能力

文本生成

文本轉換

序列到序列任務

使用案例

文本處理

大小寫和標點校正

微調後可自動修正芬蘭語文本的大小寫和標點錯誤

參考Finnish-NLP/t5-small-nl24-casing-punctuation-correction模型

文本分類

新聞分類

在Yle新聞數據集上微調後達到94.4%準確率

優於同參數規模的多語言mT5模型

🚀 芬蘭語T5-base-nl36模型

這是一個基於芬蘭語的預訓練T5模型，採用基於跨度的掩碼語言建模（MLM）目標進行訓練。T5模型最早在這篇論文中被提出，並在此頁面首次發佈。

⚠️ 重要提示

Hugging Face推理小部件已停用，因為該模型需要在特定下游任務上進行文本到文本的微調才能在實際中發揮作用。作為微調後的芬蘭語T5模型示例，你可以查看 Finnish-NLP/t5-small-nl24-casing-punctuation-correction，該模型經過微調，可糾正芬蘭語文本中缺失的大小寫和標點符號。

✨ 主要特性

自監督預訓練：在大量芬蘭語數據上以自監督方式進行預訓練，無需人工標註。
基於跨度的掩碼語言建模：採用基於跨度的掩碼語言建模（MLM）目標進行訓練，學習芬蘭語的內在表示。
高效架構：使用 T5 v1.1 改進和高效架構，具有更好的下游性能。

📦 安裝指南

暫未提供安裝相關內容。

💻 使用示例

基礎用法

# 在PyTorch中使用該模型
from transformers import T5Tokenizer, T5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")
model = T5ForConditionalGeneration.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")

高級用法

# 在TensorFlow中使用該模型
from transformers import T5Tokenizer, TFT5ForConditionalGeneration

tokenizer = T5Tokenizer.from_pretrained("Finnish-NLP/t5-base-nl36-finnish")
model = T5ForConditionalGeneration.from_pretrained("Finnish-NLP/t5-base-nl36-finnish", from_pt=True)

📚 詳細文檔

模型描述

T5是一種編碼器 - 解碼器模型，以文本到文本的格式處理所有自然語言處理問題。

芬蘭語T5是一個以自監督方式在大量芬蘭語數據語料庫上進行預訓練的Transformer模型。這意味著它僅在原始文本上進行預訓練，沒有人工進行任何標註（因此可以使用大量公開可用的數據），並通過自動過程從這些文本中生成輸入和輸出。

更準確地說，它是使用基於跨度的掩碼語言建模（MLM）目標進行預訓練的。輸入序列的跨度被所謂的哨兵標記（即唯一的掩碼標記）掩蓋，輸出序列由相同的哨兵標記和實際被掩蓋的標記拼接而成。通過這種方式，模型學習到芬蘭語的內在表示。

與原始T5模型相比，該模型在預訓練期間使用了 T5 v1.1 的改進：

前饋隱藏層使用GEGLU激活函數，而不是ReLU - 詳見此處
預訓練期間關閉了Dropout（提高了質量）。微調期間應重新啟用Dropout
僅在基於跨度的掩碼語言建模（MLM）目標上進行預訓練，不混合下游任務
嵌入層和分類器層之間不共享參數

該模型還採用了這篇論文中提出的“高效”T5架構。簡而言之，該論文指出，與參數數量相似的其他模型架構相比，深度 - 窄化的模型架構在下游任務中表現更優。更準確地說，模型深度定義為依次堆疊的Transformer塊的數量。

該模型使用 t5-efficient-base-nl36 架構的層深度，這意味著編碼器和解碼器都有36個Transformer層，而原始T5“基礎”模型架構只有12個Transformer層。

該模型總共有8.14億個參數。

預期用途和侷限性

該模型僅以自監督方式進行預訓練，不包括任何有監督訓練。因此，與谷歌的原始T5模型不同，該模型必須在下游任務（如文本分類）上進行微調才能使用。

⚠️ 重要提示

你很可能需要以全fp32精度對這些T5模型進行微調，而不是混合精度。例如，你還可以從這裡找到更多微調技巧。

侷限性和偏差

該模型使用的訓練數據包含大量來自互聯網的未過濾內容，遠非中立。因此，模型的預測可能存在偏差。這種偏差也會影響該模型的所有微調版本。

訓練數據

這個芬蘭語T5模型是在六個數據集的組合上進行預訓練的：

mc4_fi_cleaned，mC4數據集是Common Crawl網絡爬取語料庫的多語言、大規模且經過清理的版本。我們使用了mC4數據集中的芬蘭語子集，並使用我們自己的文本數據清理代碼進一步清理了它（查看數據集倉庫）。
wikipedia 我們使用了維基百科（2021年8月）數據集中的芬蘭語子集
Yle Finnish News Archive 2011 - 2018
Yle Finnish News Archive 2019 - 2020
Finnish News Agency Archive (STT)
The Suomi24 Sentences Corpus

原始數據集經過自動清理，以過濾掉質量不佳和非芬蘭語的示例。此外，使用僅用非常乾淨的芬蘭語文本訓練的KenLM模型為所有文本計算了困惑度分數。這個困惑度分數可以用來確定文本中包含的芬蘭語的“乾淨”程度。最後，將所有數據集拼接起來，並使用前90%的困惑度分數作為過濾閾值，過濾掉質量最差的10%的文本。這些清理後的數據集總共約76GB文本。

訓練過程

預處理

使用WordPiece對文本進行分詞，詞彙表大小為32000。輸入和輸出是由512個連續標記組成的序列。文本不進行小寫處理，因此該模型區分大小寫：“finnish”和“Finnish”是不同的。

預訓練

該模型在由 Google TPU Research Cloud 贊助的TPUv3 - 8虛擬機上進行了100萬步的訓練，批次大小為64（總共330億個標記）。使用的優化器是AdaFactor，學習率在10000步內進行預熱，恆定學習率為1e - 2，然後學習率進行逆平方根衰減（指數衰減）。

訓練代碼來自基於Google的Jax/Flax的 t5x框架，並且一些t5x任務定義改編自 Per的t5x工作。

評估結果

通過在兩個不同的帶標籤芬蘭語數據集 Yle News 和 Eduskunta 上對模型進行下游文本分類任務的微調來進行評估。分類微調使用的序列長度為128個標記。

當在這些數據集上進行微調時，該模型（表格中的第六行）與我們的其他T5模型及其參數數量相比，取得了以下準確率結果：

模型名稱	模型參數	Yle News準確率	Eduskunta準確率
Finnish - NLP/t5 - tiny - nl6 - finnish	3100萬	92.80	69.07
Finnish - NLP/t5 - mini - nl8 - finnish	7200萬	93.89	71.43
Finnish - NLP/t5 - small - nl16 - finnish	1.84億	94.46	74.00
Finnish - NLP/t5 - small - nl24 - finnish	2.6億	94.68	74.90
Finnish - NLP/byt5 - base - finnish	5.82億	92.33	73.13
Finnish - NLP/t5 - base - nl36 - finnish	8.14億	94.40	75.97
Finnish - NLP/t5 - large - nl36 - finnish	14.25億	94.17	73.50