umt5-xxl開源多語言文本生成模型 - 支持107種語言，高效生成文本內容

Home

Umt5 Xxl

Developed by google

UMT5是基於mC4多語種語料庫預訓練的多語言文本生成模型，支持107種語言，採用UniMax採樣策略優化語言平衡

大型語言模型

Transformers

Supports Multiple LanguagesOpen Source License:Apache-2.0 #多語言預訓練 #UniMax採樣 #107種語言支持

Downloads 4,449

Release Time : 7/2/2023

Model Overview

基於T5架構的多語言預訓練模型，專注於跨語言文本生成任務，需針對下游任務微調後使用

Model Features

UniMax採樣策略

通過設置語言重複上限實現更公平的語言分佈，避免尾部語言過擬合

大規模多語言支持

覆蓋107種語言，包含主流語種和低資源語言

升級版mC4語料庫

基於29萬億字符的多語言預訓練數據

Model Capabilities

多語言文本生成

跨語言遷移學習

文本摘要

機器翻譯

Use Cases

自然語言處理

多語言機器翻譯

通過微調實現低資源語言的翻譯任務

跨語言文本摘要

支持多種語言的文本摘要生成

🚀 Google UMT5多語言模型

UMT5是一個多語言預訓練模型，它基於更新版本的mC4語料庫進行預訓練，覆蓋了107種語言，能為多語言處理任務提供強大支持。

🚀 快速開始

UMT5基於更新後的mC4語料庫進行預訓練，該語料庫涵蓋了107種語言，具體包括：

南非荷蘭語、阿爾巴尼亞語、阿姆哈拉語、阿拉伯語、亞美尼亞語、阿塞拜疆語、巴斯克語、白俄羅斯語、孟加拉語、保加利亞語、緬甸語、加泰羅尼亞語、宿務語、齊切瓦語、中文、科西嘉語、捷克語、丹麥語、荷蘭語、英語、世界語、愛沙尼亞語、菲律賓語、芬蘭語、法語、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、海地克里奧爾語、豪薩語、夏威夷語、希伯來語、印地語、苗語、匈牙利語、冰島語、伊博語、印尼語、愛爾蘭語、意大利語、日語、爪哇語、卡納達語、哈薩克語、高棉語、韓語、庫爾德語、吉爾吉斯語、老撾語、拉丁語、拉脫維亞語、立陶宛語、盧森堡語、馬其頓語、馬達加斯加語、馬來語、馬拉雅拉姆語、馬耳他語、毛利語、馬拉地語、蒙古語、尼泊爾語、挪威語、普什圖語、波斯語、波蘭語、葡萄牙語、旁遮普語、羅馬尼亞語、俄語、薩摩亞語、蘇格蘭蓋爾語、塞爾維亞語、紹納語、信德語、僧伽羅語、斯洛伐克語、斯洛文尼亞語、索馬里語、索托語、西班牙語、巽他語、斯瓦希里語、瑞典語、塔吉克語、泰米爾語、泰盧固語、泰語、土耳其語、烏克蘭語、烏爾都語、烏茲別克語、越南語、威爾士語、西弗裡西亞語、科薩語、意第緒語、約魯巴語、祖魯語。

注意：UMT5僅在mC4語料庫上進行了預訓練，未進行任何有監督訓練。因此，在將該模型應用於下游任務之前，需要對其進行微調。

預訓練數據集：mC4

其他社區檢查點：點擊查看

論文：UniMax, Fairer and More Effective Language Sampling for Large - Scale Multilingual Pretraining

作者：Hyung Won Chung, Xavier Garcia, Adam Roberts, Yi Tay, Orhan Firat, Sharan Narang, Noah Constant

📚 詳細文檔

摘要

預訓練的多語言大語言模型通常使用基於啟發式溫度的採樣方法來平衡不同語言。然而，以往的工作並未系統地評估不同預訓練語言分佈在不同模型規模下的有效性。在本文中，我們提出了一種新的採樣方法UniMax，它能更均勻地覆蓋主要語言，同時通過明確限制每種語言語料庫的重複次數來減輕對長尾語言的過擬合。我們在一系列多語言基準測試中，對不同模型規模下的多種採樣策略進行了廣泛的消融測試。我們發現，UniMax的性能優於標準的基於溫度的採樣方法，並且隨著模型規模的增加，這種優勢依然存在。作為我們的貢獻，我們發佈了：(i) 一個改進且更新的mC4多語言語料庫，包含107種語言的29萬億個字符；(ii) 一套使用UniMax採樣方法訓練的預訓練umT5模型檢查點。