🚀 🇮🇷 波斯語 mGPT 1.3B
波斯語 mGPT 1.3B 是一款專門為波斯語設計的語言模型。從名稱可以推測,該模型擁有 13 億個參數。波斯語屬於印歐語系,是一種極具詩意的語言,約有 1.1 億使用者。以下是關於波斯語的一些信息:
- 波斯語也被稱為法爾西語,主要在伊朗、阿富汗和塔吉克斯坦使用。
- 波斯語擁有豐富的文學傳統,誕生了如魯米、哈菲茲和菲爾多西等標誌性詩人。
- 波斯語使用波斯字母,它是阿拉伯字母的一種變體。
🚀 快速開始
本部分暫未在原文中體現,若有相關內容可補充。
✨ 主要特性
波斯語 mGPT 1.3B 是專門針對波斯語設計的語言模型,能夠更好地處理和生成波斯語內容。
🔧 技術細節
波斯語 mGPT 1.3B 是基於基礎 [mGPT - XL (1.3B)](https://huggingface.co/ai - forever/mGPT) 模型派生而來的(見以下列表)。基礎模型最初使用維基百科和 C4 語料庫,在來自 25 個語系的 61 種語言上進行訓練。
我們為 23 種語言找到了額外的數據,其中大部分被認為是小語種,並決定進一步微調基礎模型。波斯語 mGPT 1.3B 在 1 張 A100 顯卡上,以 batch_size = 4 和 2048 個標記的上下文窗口,額外訓練了 200 步。
該模型在驗證集上的最終困惑度為 33.44。
訓練損失和困惑度圖表:

📚 詳細文檔
其他 mGPT - 1.3B 模型
- [🇦🇲 mGPT - 1.3B 亞美尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - armenian)
- [🇦🇿 mGPT - 1.3B 阿塞拜疆語](https://huggingface.co/ai - forever/mGPT - 1.3B - azerbaijan)
- [🍯 mGPT - 1.3B 巴什基爾語](https://huggingface.co/ai - forever/mGPT - 1.3B - bashkir)
- [🇧🇾 mGPT - 1.3B 白俄羅斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - belorussian)
- [🇧🇬 mGPT - 1.3B 保加利亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - bulgarian)
- [🌞 mGPT - 1.3B 布里亞特語](https://huggingface.co/ai - forever/mGPT - 1.3B - buryat)
- [🌳 mGPT - 1.3B 楚瓦什語](https://huggingface.co/ai - forever/mGPT - 1.3B - chuvash)
- [🇬🇪 mGPT - 1.3B 格魯吉亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - georgian)
- [🌸 mGPT - 1.3B 卡爾梅克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kalmyk)
- [🇰🇿 mGPT - 1.3B 哈薩克語](https://huggingface.co/ai - forever/mGPT - 1.3B - kazakh)
- [🇰🇬 mGPT - 1.3B 吉爾吉斯語](https://huggingface.co/ai - forever/mGPT - 1.3B - kirgiz)
- [🐻 mGPT - 1.3B 馬里語](https://huggingface.co/ai - forever/mGPT - 1.3B - mari)
- [🇲🇳 mGPT - 1.3B 蒙古語](https://huggingface.co/ai - forever/mGPT - 1.3B - mongol)
- [🐆 mGPT - 1.3B 奧塞梯語](https://huggingface.co/ai - forever/mGPT - 1.3B - ossetian)
- [🇷🇴 mGPT - 1.3B 羅馬尼亞語](https://huggingface.co/ai - forever/mGPT - 1.3B - romanian)
- [🇹🇯 mGPT - 1.3B 塔吉克語](https://huggingface.co/ai - forever/mGPT - 1.3B - tajik)
- [☕ mGPT - 1.3B 韃靼語](https://huggingface.co/ai - forever/mGPT - 1.3B - tatar)
- [🇹🇲 mGPT - 1.3B 土庫曼語](https://huggingface.co/ai - forever/mGPT - 1.3B - turkmen)
- [🐎 mGPT - 1.3B 圖瓦語](https://huggingface.co/ai - forever/mGPT - 1.3B - tuvan)
- [🇺🇦 mGPT - 1.3B 烏克蘭語](https://huggingface.co/ai - forever/mGPT - 1.3B - ukranian)
- [🇺🇿 mGPT - 1.3B 烏茲別克語](https://huggingface.co/ai - forever/mGPT - 1.3B - uzbek)
- [💎 mGPT - 1.3B 雅庫特語](https://huggingface.co/ai - forever/mGPT - 1.3B - yakut)
📄 許可證
本項目採用 MIT 許可證。
💡 反饋
如果您發現了漏洞,或者有用於在您的語言上訓練模型的額外數據,請向我們反饋。模型會隨著時間不斷改進,敬請關注!