🚀 Google UMT5 模型介紹
UMT5 是一個多語言預訓練模型,它基於更新版本的 mC4 語料庫進行預訓練,涵蓋了 107 種語言,為多語言處理任務提供了強大的支持。
🚀 快速開始
UMT5 模型的相關代碼和資源可以在 Google's UMT5 倉庫中找到。該模型在更新版的 mC4 語料庫上進行預訓練,該語料庫覆蓋了 107 種語言,具體包括:
南非荷蘭語、阿爾巴尼亞語、阿姆哈拉語、阿拉伯語、亞美尼亞語、阿塞拜疆語、巴斯克語、白俄羅斯語、孟加拉語、保加利亞語、緬甸語、加泰羅尼亞語、宿務語、齊切瓦語、中文、科西嘉語、捷克語、丹麥語、荷蘭語、英語、世界語、愛沙尼亞語、菲律賓語、芬蘭語、法語、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、海地克里奧爾語、豪薩語、夏威夷語、希伯來語、印地語、苗語、匈牙利語、冰島語、伊博語、印尼語、愛爾蘭語、意大利語、日語、爪哇語、卡納達語、哈薩克語、高棉語、韓語、庫爾德語、吉爾吉斯語、老撾語、拉丁語、拉脫維亞語、立陶宛語、盧森堡語、馬其頓語、馬達加斯加語、馬來語、馬拉雅拉姆語、馬耳他語、毛利語、馬拉地語、蒙古語、尼泊爾語、挪威語、普什圖語、波斯語、波蘭語、葡萄牙語、旁遮普語、羅馬尼亞語、俄語、薩摩亞語、蘇格蘭蓋爾語、塞爾維亞語、紹納語、信德語、僧伽羅語、斯洛伐克語、斯洛文尼亞語、索馬里語、索托語、西班牙語、巽他語、斯瓦希里語、瑞典語、塔吉克語、泰米爾語、泰盧固語、泰語、土耳其語、烏克蘭語、烏爾都語、烏茲別克語、越南語、威爾士語、西弗里斯蘭語、科薩語、意第緒語、約魯巴語、祖魯語。
⚠️ 重要提示
UMT5 僅在 mC4 語料庫上進行了預訓練,未進行任何有監督訓練。因此,在將該模型應用於下游任務之前,需要對其進行微調。
✨ 主要特性
- 多語言覆蓋:基於更新版的 mC4 語料庫預訓練,覆蓋 107 種語言,為多語言處理任務提供了廣泛的支持。
- 新型採樣方法:提出了一種新的採樣方法 UniMax,能夠更均勻地覆蓋主要語言,同時通過明確限制每種語言語料庫的重複次數來減輕對長尾語言的過擬合。
📚 詳細文檔
預訓練數據集
模型使用的預訓練數據集為 mC4。
其他社區檢查點
可以在 這裡 找到其他社區提供的 UMT5 檢查點。
相關論文
論文標題為 UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining,作者包括 Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant。
摘要
預訓練的多語言大語言模型通常使用基於啟發式溫度的採樣方法來平衡不同語言之間的差異。然而,以往的工作並未系統地評估不同預訓練語言分佈在不同模型規模下的有效性。在本文中,作者提出了一種新的採樣方法 UniMax,該方法能夠更均勻地覆蓋主要語言,同時通過明確限制每種語言語料庫的重複次數來減輕對長尾語言的過擬合。作者進行了一系列廣泛的消融實驗,在一系列多語言基準測試中測試了一系列採樣策略,並改變了模型規模。研究發現,UniMax 優於標準的基於溫度的採樣方法,並且隨著模型規模的增加,其優勢依然存在。作為研究貢獻的一部分,作者發佈了:(i) 一個改進和更新的 mC4 多語言語料庫,包含 107 種語言的 29 萬億個字符;(ii) 一套使用 UniMax 採樣方法訓練的預訓練 UMT5 模型檢查點。
📄 許可證
本項目採用 Apache-2.0 許可證。