🚀 🇺🇿 乌兹别克语 mGPT 1.3B
乌兹别克语 mGPT 1.3B 是一款专门为乌兹别克语设计的语言模型。从名称就能看出,该模型拥有 13 亿个参数。乌兹别克语属于突厥语族,是一种富有韵律的语言,约有 3200 万使用者。以下是关于乌兹别克语的一些信息:
- 它是乌兹别克斯坦的官方语言。
- 乌兹别克斯坦独立后,乌兹别克语从西里尔字母过渡到拉丁字母,但西里尔字母在老一辈人中仍在使用。
- 历史上,由于贸易和伊斯兰学术传统,乌兹别克语受到了波斯语和阿拉伯语的影响。
✨ 主要特性
- 专为乌兹别克语设计,能更好地处理该语言相关的任务。
- 基于强大的基础模型进行微调,具备较好的语言理解和生成能力。
🔧 技术细节
乌兹别克语 mGPT 1.3B 是基于基础 [mGPT - XL (1.3B)](https://huggingface.co/ai - forever/mGPT) 模型派生而来的模型之一(见下方列表)。基础模型最初使用维基百科和 C4 语料库,在来自 25 个语系的 61 种语言上进行训练。
我们为 23 种语言(其中大部分被认为是小语种)找到了额外的数据,并决定对基础模型进行进一步微调。乌兹别克语 mGPT 1.3B 在 1 块 A100 显卡上,以 batch_size = 4 和 2048 个标记的上下文窗口,额外训练了 50000 步。
该模型在验证集上的最终困惑度为 6.84。
训练损失和困惑度图表:

📚 详细文档
其他 mGPT - 1.3B 模型
- [🇦🇲 mGPT - 1.3B 亚美尼亚语](https://huggingface.co/ai - forever/mGPT - 1.3B - armenian)
- [🇦🇿 mGPT - 1.3B 阿塞拜疆语](https://huggingface.co/ai - forever/mGPT - 1.3B - azerbaijan)
- [🍯 mGPT - 1.3B 巴什基尔语](https://huggingface.co/ai - forever/mGPT - 1.3B - bashkir)
- [🇧🇾 mGPT - 1.3B 白俄罗斯语](https://huggingface.co/ai - forever/mGPT - 1.3B - belorussian)
- [🇧🇬 mGPT - 1.3B 保加利亚语](https://huggingface.co/ai - forever/mGPT - 1.3B - bulgarian)
- [🌞 mGPT - 1.3B 布里亚特语](https://huggingface.co/ai - forever/mGPT - 1.3B - buryat)
- [🌳 mGPT - 1.3B 楚瓦什语](https://huggingface.co/ai - forever/mGPT - 1.3B - chuvash)
- [🇬🇪 mGPT - 1.3B 格鲁吉亚语](https://huggingface.co/ai - forever/mGPT - 1.3B - georgian)
- [🌸 mGPT - 1.3B 卡尔梅克语](https://huggingface.co/ai - forever/mGPT - 1.3B - kalmyk)
- [🇰🇿 mGPT - 1.3B 哈萨克语](https://huggingface.co/ai - forever/mGPT - 1.3B - kazakh)
- [🇰🇬 mGPT - 1.3B 吉尔吉斯语](https://huggingface.co/ai - forever/mGPT - 1.3B - kirgiz)
- [🐻 mGPT - 1.3B 马里语](https://huggingface.co/ai - forever/mGPT - 1.3B - mari)
- [🇲🇳 mGPT - 1.3B 蒙古语](https://huggingface.co/ai - forever/mGPT - 1.3B - mongol)
- [🐆 mGPT - 1.3B 奥塞梯语](https://huggingface.co/ai - forever/mGPT - 1.3B - ossetian)
- [🇮🇷 mGPT - 1.3B 波斯语](https://huggingface.co/ai - forever/mGPT - 1.3B - persian)
- [🇷🇴 mGPT - 1.3B 罗马尼亚语](https://huggingface.co/ai - forever/mGPT - 1.3B - romanian)
- [🇹🇯 mGPT - 1.3B 塔吉克语](https://huggingface.co/ai - forever/mGPT - 1.3B - tajik)
- [☕ mGPT - 1.3B 鞑靼语](https://huggingface.co/ai - forever/mGPT - 1.3B - tatar)
- [🇹🇲 mGPT - 1.3B 土库曼语](https://huggingface.co/ai - forever/mGPT - 1.3B - turkmen)
- [🐎 mGPT - 1.3B 图瓦语](https://huggingface.co/ai - forever/mGPT - 1.3B - tuvan)
- [🇺🇦 mGPT - 1.3B 乌克兰语](https://huggingface.co/ai - forever/mGPT - 1.3B - ukranian)
- [💎 mGPT - 1.3B 雅库特语](https://huggingface.co/ai - forever/mGPT - 1.3B - yakut)
📄 许可证
本模型采用 MIT 许可证。
💡 使用建议
如果您发现了模型的 bug 或者有用于训练您所在语言模型的额外数据,请向我们反馈。模型会随着时间不断改进,敬请关注!