mGPT-1.3B-uzbek開源語言模型 - 免費部署實現烏茲別克語對話應用

首頁

Mgpt 1.3B Uzbek

由ai-forever開發

專為烏茲別克語設計的13億參數語言模型，基於mGPT-XL (1.3B)深度調優

大型語言模型

Transformers

支持多種語言開源協議:MIT #烏茲別克語優化 #多語言支持 #13億參數

下載量 118

發布時間 : 8/10/2023

模型概述

該模型是針對烏茲別克語優化的語言模型，支持文本生成和理解任務，特別適應烏茲別克語的語言特點和文化背景

模型特點

多語言支持

除了主要支持烏茲別克語外，還能處理英語和俄語

文化適應性

特別考慮烏茲別克語的文字演變(西里爾/拉丁字母)和波斯/阿拉伯語影響

高效訓練

在單張A100顯卡上完成深度調優，batch_size=4，2048個token上下文窗口

模型能力

烏茲別克語文本生成

多語言文本理解

長上下文處理(2048 token)

使用案例

教育

烏茲別克語學習輔助

為非母語者生成學習材料和練習

內容創作

本地化內容生成

為烏茲別克市場創建文化適配的內容

🚀 🇺🇿 烏茲別克語 mGPT 1.3B

烏茲別克語 mGPT 1.3B 是一款專門為烏茲別克語設計的語言模型。從名稱就能看出，該模型擁有 13 億個參數。烏茲別克語屬於突厥語族，是一種富有韻律的語言，約有 3200 萬使用者。以下是關於烏茲別克語的一些信息：

它是烏茲別克斯坦的官方語言。
烏茲別克斯坦獨立後，烏茲別克語從西裡爾字母過渡到拉丁字母，但西裡爾字母在老一輩人中仍在使用。
歷史上，由於貿易和伊斯蘭學術傳統，烏茲別克語受到了波斯語和阿拉伯語的影響。

✨ 主要特性

專為烏茲別克語設計，能更好地處理該語言相關的任務。
基於強大的基礎模型進行微調，具備較好的語言理解和生成能力。

🔧 技術細節

烏茲別克語 mGPT 1.3B 是基於基礎 [mGPT - XL (1.3B)](https://huggingface.co/ai - forever/mGPT) 模型派生而來的模型之一（見下方列表）。基礎模型最初使用維基百科和 C4 語料庫，在來自 25 個語系的 61 種語言上進行訓練。

我們為 23 種語言（其中大部分被認為是小語種）找到了額外的數據，並決定對基礎模型進行進一步微調。烏茲別克語 mGPT 1.3B 在 1 塊 A100 顯卡上，以 batch_size = 4 和 2048 個標記的上下文窗口，額外訓練了 50000 步。

該模型在驗證集上的最終困惑度為 6.84。

訓練損失和困惑度圖表：

📚 詳細文檔

其他 mGPT - 1.3B 模型

[🇦🇲 mGPT - 1.3B 亞美尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - armenian)
[🇦🇿 mGPT - 1.3B 阿塞拜疆語](https://huggingface.co/ai - forever/mGPT - 1.3B - azerbaijan)
[🍯 mGPT - 1.3B 巴什基爾語](https://huggingface.co/ai - forever/mGPT - 1.3B - bashkir)
[🇧🇾 mGPT - 1.3B 白俄羅斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - belorussian)
[🇧🇬 mGPT - 1.3B 保加利亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - bulgarian)
[🌞 mGPT - 1.3B 布里亞特語](https://huggingface.co/ai - forever/mGPT - 1.3B - buryat)
[🌳 mGPT - 1.3B 楚瓦什語](https://huggingface.co/ai - forever/mGPT - 1.3B - chuvash)
[🇬🇪 mGPT - 1.3B 格魯吉亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - georgian)
[🌸 mGPT - 1.3B 卡爾梅克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kalmyk)
[🇰🇿 mGPT - 1.3B 哈薩克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kazakh)
[🇰🇬 mGPT - 1.3B 吉爾吉斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - kirgiz)
[🐻 mGPT - 1.3B 馬里語](https://huggingface.co/ai - forever/mGPT - 1.3B - mari)
[🇲🇳 mGPT - 1.3B 蒙古語](https://huggingface.co/ai - forever/mGPT - 1.3B - mongol)
[🐆 mGPT - 1.3B 奧塞梯語](https://huggingface.co/ai - forever/mGPT - 1.3B - ossetian)
[🇮🇷 mGPT - 1.3B 波斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - persian)
[🇷🇴 mGPT - 1.3B 羅馬尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - romanian)
[🇹🇯 mGPT - 1.3B 塔吉克語](https://huggingface.co/ai - forever/mGPT - 1.3B - tajik)
[☕ mGPT - 1.3B 韃靼語](https://huggingface.co/ai - forever/mGPT - 1.3B - tatar)
[🇹🇲 mGPT - 1.3B 土庫曼語](https://huggingface.co/ai - forever/mGPT - 1.3B - turkmen)
[🐎 mGPT - 1.3B 圖瓦語](https://huggingface.co/ai - forever/mGPT - 1.3B - tuvan)
[🇺🇦 mGPT - 1.3B 烏克蘭語](https://huggingface.co/ai - forever/mGPT - 1.3B - ukranian)
[💎 mGPT - 1.3B 雅庫特語](https://huggingface.co/ai - forever/mGPT - 1.3B - yakut)