umt5-small開源多語言模型 - 覆蓋107種語言的文本處理實用工具

首頁

Umt5 Small

由google開發

基於mC4多語言語料庫預訓練的統一多語言T5模型，覆蓋107種語言

大型語言模型

Transformers

支持多種語言開源協議:Apache-2.0 #多語言預訓練 #UniMax採樣 #107種語言支持

下載量 17.35k

發布時間 : 7/2/2023

模型概述

UMT5是谷歌研發的多語言文本生成模型，採用UniMax採樣策略優化語言分佈，適用於跨語言自然語言處理任務。需微調後使用。

模型特點

UniMax採樣策略

通過限制語料重複次數優化語言分佈，平衡頭部/尾部語言覆蓋

多語言支持

覆蓋107種語言，包括低資源語言

大規模預訓練

基於29萬億字符的mC4多語言語料庫

模型能力

多語言文本生成

跨語言遷移學習

零樣本學習（需微調）

使用案例

自然語言處理

機器翻譯

通過微調實現跨語言文本轉換

多語言問答系統

構建支持多種語言的智能問答應用

內容生成

多語言內容創作

生成不同語言的營銷文案/新聞摘要

🚀 谷歌UMT5模型

UMT5是一個多語言預訓練模型，它基於更新版本的mC4語料庫進行預訓練，覆蓋了107種語言。該模型在多語言處理任務上具有很大的潛力，但需要進行微調才能應用於下游任務。

🚀 快速開始

UMT5基於更新版的 mC4 語料庫進行預訓練，此語料庫涵蓋了107種語言，包括：南非荷蘭語、阿爾巴尼亞語、阿姆哈拉語、阿拉伯語、亞美尼亞語、阿塞拜疆語、巴斯克語、白俄羅斯語、孟加拉語、保加利亞語、緬甸語、加泰羅尼亞語、宿務語、齊切瓦語、中文、科西嘉語、捷克語、丹麥語、荷蘭語、英語、世界語、愛沙尼亞語、菲律賓語、芬蘭語、法語、加利西亞語、格魯吉亞語、德語、希臘語、古吉拉特語、海地克里奧爾語、豪薩語、夏威夷語、希伯來語、印地語、苗語、匈牙利語、冰島語、伊博語、印尼語、愛爾蘭語、意大利語、日語、爪哇語、卡納達語、哈薩克語、高棉語、韓語、庫爾德語、吉爾吉斯語、老撾語、拉丁語、拉脫維亞語、立陶宛語、盧森堡語、馬其頓語、馬達加斯加語、馬來語、馬拉雅拉姆語、馬耳他語、毛利語、馬拉地語、蒙古語、尼泊爾語、挪威語、普什圖語、波斯語、波蘭語、葡萄牙語、旁遮普語、羅馬尼亞語、俄語、薩摩亞語、蘇格蘭蓋爾語、塞爾維亞語、紹納語、信德語、僧伽羅語、斯洛伐克語、斯洛文尼亞語、索馬里語、索托語、西班牙語、巽他語、斯瓦希里語、瑞典語、塔吉克語、泰米爾語、泰盧固語、泰語、土耳其語、烏克蘭語、烏爾都語、烏茲別克語、越南語、威爾士語、西弗里斯蘭語、科薩語、意第緒語、約魯巴語、祖魯語。

注意：UMT5僅在mC4語料庫上進行了預訓練，未進行任何監督訓練。因此，該模型在應用於下游任務之前需要進行微調。

📚 詳細文檔

預訓練數據集

其他社區檢查點

點擊查看

作者信息

Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant

📄 許可證

本項目採用Apache-2.0許可證。

📚 論文摘要

預訓練的多語言大語言模型通常使用基於啟發式溫度的採樣方法來平衡不同語言之間的關係。然而，以往的工作並未系統地評估不同預訓練語言分佈在不同模型規模下的有效性。在本文中，我們提出了一種新的採樣方法——UniMax，它能夠更均勻地覆蓋主流語言，同時通過明確限制每種語言語料庫的重複次數來緩解對小語種的過擬合問題。我們在一系列多語言基準測試中，對多種採樣策略進行了廣泛的消融實驗，並改變了模型的規模。我們發現，UniMax的性能優於標準的基於溫度的採樣方法，並且隨著模型規模的增加，其優勢依然存在。作為我們的貢獻，我們發佈了：（i）一個改進和更新後的mC4多語言語料庫，包含107種語言的29萬億個字符；（ii）一套使用UniMax採樣方法訓練的預訓練umT5模型檢查點。