umt5-xl開源多語言文本生成模型 - 支持107種語言，輕鬆創作多語種內容

首頁

Umt5 Xl

由google開發

基於mC4多語種語料庫預訓練的多語言文本生成模型，支持107種語言

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言預訓練 #UniMax採樣 #無監督學習

下載量 1,049

發布時間 : 7/2/2023

模型概述

UMT5是谷歌研發的多語言T5模型變體，採用UniMax採樣方法優化語言分佈平衡，適用於跨語言文本生成和理解任務。需微調後使用。

模型特點

UniMax採樣技術

通過限制語料重複次數實現更公平的語言分佈，提升尾部語言表現

大規模多語言支持

覆蓋107種語言，包括低資源語言如苗語、夏威夷語等

改進版mC4語料庫

基於29萬億字符的多語言清洗數據訓練

模型能力

多語言文本生成

跨語言遷移學習

文本理解

機器翻譯基礎模型

使用案例

自然語言處理

多語言文本摘要

支持百餘種語言的文本摘要生成

低資源語言處理

對非洲、東南亞等低資源語言提供基礎支持

教育科技

語言學習工具

可作為多語言學習應用的底層引擎

🚀 Google UMT5 模型介紹

UMT5 是一個多語言預訓練模型，它基於更新版本的 mC4 語料庫進行預訓練，涵蓋了 107 種語言，為多語言處理任務提供了強大的支持。

🚀 快速開始

UMT5 模型的相關代碼和資源可以在 Google's UMT5 倉庫中找到。該模型在更新版的 mC4 語料庫上進行預訓練，該語料庫覆蓋了 107 種語言，具體包括：

南非荷蘭語、阿爾巴尼亞語、阿姆哈拉語、阿拉伯語、亞美尼亞語、阿塞拜疆語、巴斯克語、白俄羅斯語、孟加拉語、保加利亞語、緬甸語、加泰羅尼亞語、宿務語、齊切瓦語、中文、科西嘉語、捷克語、丹麥語、荷蘭語、英語、世界語、愛沙尼亞語、菲律賓語、芬蘭語、法語、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、海地克里奧爾語、豪薩語、夏威夷語、希伯來語、印地語、苗語、匈牙利語、冰島語、伊博語、印尼語、愛爾蘭語、意大利語、日語、爪哇語、卡納達語、哈薩克語、高棉語、韓語、庫爾德語、吉爾吉斯語、老撾語、拉丁語、拉脫維亞語、立陶宛語、盧森堡語、馬其頓語、馬達加斯加語、馬來語、馬拉雅拉姆語、馬耳他語、毛利語、馬拉地語、蒙古語、尼泊爾語、挪威語、普什圖語、波斯語、波蘭語、葡萄牙語、旁遮普語、羅馬尼亞語、俄語、薩摩亞語、蘇格蘭蓋爾語、塞爾維亞語、紹納語、信德語、僧伽羅語、斯洛伐克語、斯洛文尼亞語、索馬里語、索托語、西班牙語、巽他語、斯瓦希里語、瑞典語、塔吉克語、泰米爾語、泰盧固語、泰語、土耳其語、烏克蘭語、烏爾都語、烏茲別克語、越南語、威爾士語、西弗里斯蘭語、科薩語、意第緒語、約魯巴語、祖魯語。

⚠️ 重要提示

UMT5 僅在 mC4 語料庫上進行了預訓練，未進行任何有監督訓練。因此，在將該模型應用於下游任務之前，需要對其進行微調。

✨ 主要特性

多語言覆蓋：基於更新版的 mC4 語料庫預訓練，覆蓋 107 種語言，為多語言處理任務提供了廣泛的支持。
新型採樣方法：提出了一種新的採樣方法 UniMax，能夠更均勻地覆蓋主要語言，同時通過明確限制每種語言語料庫的重複次數來減輕對長尾語言的過擬合。

📚 詳細文檔

預訓練數據集

模型使用的預訓練數據集為 mC4。

其他社區檢查點

可以在這裡找到其他社區提供的 UMT5 檢查點。

摘要

預訓練的多語言大語言模型通常使用基於啟發式溫度的採樣方法來平衡不同語言之間的差異。然而，以往的工作並未系統地評估不同預訓練語言分佈在不同模型規模下的有效性。在本文中，作者提出了一種新的採樣方法 UniMax，該方法能夠更均勻地覆蓋主要語言，同時通過明確限制每種語言語料庫的重複次數來減輕對長尾語言的過擬合。作者進行了一系列廣泛的消融實驗，在一系列多語言基準測試中測試了一系列採樣策略，並改變了模型規模。研究發現，UniMax 優於標準的基於溫度的採樣方法，並且隨著模型規模的增加，其優勢依然存在。作為研究貢獻的一部分，作者發佈了：(i) 一個改進和更新的 mC4 多語言語料庫，包含 107 種語言的 29 萬億個字符；(ii) 一套使用 UniMax 採樣方法訓練的預訓練 UMT5 模型檢查點。