🚀 🇺🇿 烏茲別克語 mGPT 1.3B
烏茲別克語 mGPT 1.3B 是一款專門為烏茲別克語設計的語言模型。從名稱就能看出,該模型擁有 13 億個參數。烏茲別克語屬於突厥語族,是一種富有韻律的語言,約有 3200 萬使用者。以下是關於烏茲別克語的一些信息:
- 它是烏茲別克斯坦的官方語言。
- 烏茲別克斯坦獨立後,烏茲別克語從西裡爾字母過渡到拉丁字母,但西裡爾字母在老一輩人中仍在使用。
- 歷史上,由於貿易和伊斯蘭學術傳統,烏茲別克語受到了波斯語和阿拉伯語的影響。
✨ 主要特性
- 專為烏茲別克語設計,能更好地處理該語言相關的任務。
- 基於強大的基礎模型進行微調,具備較好的語言理解和生成能力。
🔧 技術細節
烏茲別克語 mGPT 1.3B 是基於基礎 [mGPT - XL (1.3B)](https://huggingface.co/ai - forever/mGPT) 模型派生而來的模型之一(見下方列表)。基礎模型最初使用維基百科和 C4 語料庫,在來自 25 個語系的 61 種語言上進行訓練。
我們為 23 種語言(其中大部分被認為是小語種)找到了額外的數據,並決定對基礎模型進行進一步微調。烏茲別克語 mGPT 1.3B 在 1 塊 A100 顯卡上,以 batch_size = 4 和 2048 個標記的上下文窗口,額外訓練了 50000 步。
該模型在驗證集上的最終困惑度為 6.84。
訓練損失和困惑度圖表:

📚 詳細文檔
其他 mGPT - 1.3B 模型
- [🇦🇲 mGPT - 1.3B 亞美尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - armenian)
- [🇦🇿 mGPT - 1.3B 阿塞拜疆語](https://huggingface.co/ai - forever/mGPT - 1.3B - azerbaijan)
- [🍯 mGPT - 1.3B 巴什基爾語](https://huggingface.co/ai - forever/mGPT - 1.3B - bashkir)
- [🇧🇾 mGPT - 1.3B 白俄羅斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - belorussian)
- [🇧🇬 mGPT - 1.3B 保加利亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - bulgarian)
- [🌞 mGPT - 1.3B 布里亞特語](https://huggingface.co/ai - forever/mGPT - 1.3B - buryat)
- [🌳 mGPT - 1.3B 楚瓦什語](https://huggingface.co/ai - forever/mGPT - 1.3B - chuvash)
- [🇬🇪 mGPT - 1.3B 格魯吉亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - georgian)
- [🌸 mGPT - 1.3B 卡爾梅克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kalmyk)
- [🇰🇿 mGPT - 1.3B 哈薩克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kazakh)
- [🇰🇬 mGPT - 1.3B 吉爾吉斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - kirgiz)
- [🐻 mGPT - 1.3B 馬里語](https://huggingface.co/ai - forever/mGPT - 1.3B - mari)
- [🇲🇳 mGPT - 1.3B 蒙古語](https://huggingface.co/ai - forever/mGPT - 1.3B - mongol)
- [🐆 mGPT - 1.3B 奧塞梯語](https://huggingface.co/ai - forever/mGPT - 1.3B - ossetian)
- [🇮🇷 mGPT - 1.3B 波斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - persian)
- [🇷🇴 mGPT - 1.3B 羅馬尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - romanian)
- [🇹🇯 mGPT - 1.3B 塔吉克語](https://huggingface.co/ai - forever/mGPT - 1.3B - tajik)
- [☕ mGPT - 1.3B 韃靼語](https://huggingface.co/ai - forever/mGPT - 1.3B - tatar)
- [🇹🇲 mGPT - 1.3B 土庫曼語](https://huggingface.co/ai - forever/mGPT - 1.3B - turkmen)
- [🐎 mGPT - 1.3B 圖瓦語](https://huggingface.co/ai - forever/mGPT - 1.3B - tuvan)
- [🇺🇦 mGPT - 1.3B 烏克蘭語](https://huggingface.co/ai - forever/mGPT - 1.3B - ukranian)
- [💎 mGPT - 1.3B 雅庫特語](https://huggingface.co/ai - forever/mGPT - 1.3B - yakut)
📄 許可證
本模型採用 MIT 許可證。
💡 使用建議
如果您發現了模型的 bug 或者有用於訓練您所在語言模型的額外數據,請向我們反饋。模型會隨著時間不斷改進,敬請關注!