🚀 Google UMT5 模型介绍
UMT5 是一个多语言预训练模型,它基于更新版本的 mC4 语料库进行预训练,涵盖了 107 种语言,为多语言处理任务提供了强大的支持。
🚀 快速开始
UMT5 模型的相关代码和资源可以在 Google's UMT5 仓库中找到。该模型在更新版的 mC4 语料库上进行预训练,该语料库覆盖了 107 种语言,具体包括:
南非荷兰语、阿尔巴尼亚语、阿姆哈拉语、阿拉伯语、亚美尼亚语、阿塞拜疆语、巴斯克语、白俄罗斯语、孟加拉语、保加利亚语、缅甸语、加泰罗尼亚语、宿务语、齐切瓦语、中文、科西嘉语、捷克语、丹麦语、荷兰语、英语、世界语、爱沙尼亚语、菲律宾语、芬兰语、法语、加利西亚语、格鲁吉亚语、德语、希腊语、古吉拉特语、海地克里奥尔语、豪萨语、夏威夷语、希伯来语、印地语、苗语、匈牙利语、冰岛语、伊博语、印尼语、爱尔兰语、意大利语、日语、爪哇语、卡纳达语、哈萨克语、高棉语、韩语、库尔德语、吉尔吉斯语、老挝语、拉丁语、拉脱维亚语、立陶宛语、卢森堡语、马其顿语、马达加斯加语、马来语、马拉雅拉姆语、马耳他语、毛利语、马拉地语、蒙古语、尼泊尔语、挪威语、普什图语、波斯语、波兰语、葡萄牙语、旁遮普语、罗马尼亚语、俄语、萨摩亚语、苏格兰盖尔语、塞尔维亚语、绍纳语、信德语、僧伽罗语、斯洛伐克语、斯洛文尼亚语、索马里语、索托语、西班牙语、巽他语、斯瓦希里语、瑞典语、塔吉克语、泰米尔语、泰卢固语、泰语、土耳其语、乌克兰语、乌尔都语、乌兹别克语、越南语、威尔士语、西弗里斯兰语、科萨语、意第绪语、约鲁巴语、祖鲁语。
⚠️ 重要提示
UMT5 仅在 mC4 语料库上进行了预训练,未进行任何有监督训练。因此,在将该模型应用于下游任务之前,需要对其进行微调。
✨ 主要特性
- 多语言覆盖:基于更新版的 mC4 语料库预训练,覆盖 107 种语言,为多语言处理任务提供了广泛的支持。
- 新型采样方法:提出了一种新的采样方法 UniMax,能够更均匀地覆盖主要语言,同时通过明确限制每种语言语料库的重复次数来减轻对长尾语言的过拟合。
📚 详细文档
预训练数据集
模型使用的预训练数据集为 mC4。
其他社区检查点
可以在 这里 找到其他社区提供的 UMT5 检查点。
相关论文
论文标题为 UniMax, Fairer and More Effective Language Sampling for Large-Scale Multilingual Pretraining,作者包括 Hyung Won Chung、Xavier Garcia、Adam Roberts、Yi Tay、Orhan Firat、Sharan Narang、Noah Constant。
摘要
预训练的多语言大语言模型通常使用基于启发式温度的采样方法来平衡不同语言之间的差异。然而,以往的工作并未系统地评估不同预训练语言分布在不同模型规模下的有效性。在本文中,作者提出了一种新的采样方法 UniMax,该方法能够更均匀地覆盖主要语言,同时通过明确限制每种语言语料库的重复次数来减轻对长尾语言的过拟合。作者进行了一系列广泛的消融实验,在一系列多语言基准测试中测试了一系列采样策略,并改变了模型规模。研究发现,UniMax 优于标准的基于温度的采样方法,并且随着模型规模的增加,其优势依然存在。作为研究贡献的一部分,作者发布了:(i) 一个改进和更新的 mC4 多语言语料库,包含 107 种语言的 29 万亿个字符;(ii) 一套使用 UniMax 采样方法训练的预训练 UMT5 模型检查点。
📄 许可证
本项目采用 Apache-2.0 许可证。