🚀 🌌 mGPT 13B
mGPT 13B 是一個多語言語言模型。它基於來自 25 個語系的 61 種語言進行訓練(具體語言列表見下文),能為多語言場景提供強大的語言處理能力。
🚀 快速開始
文檔中未提供快速開始相關內容,若有使用需求,可參考後續詳細信息進行操作。
✨ 主要特性
- 多語言支持:支持 61 種來自 25 個語系的語言,覆蓋範圍廣泛。
- 大規模數據訓練:在 600GB 的文本數據上進行預訓練,數據來源主要為 MC4 和維基百科。
- 數據優化處理:對訓練數據進行去重處理,通過 64 位哈希和文本壓縮率過濾,保證數據質量。
📚 詳細文檔
數據集
該模型在 600GB 的文本上進行預訓練,數據主要來源於 MC4 和維基百科。訓練數據經過去重處理,具體方式為對語料庫中的每個文本進行 64 位哈希,僅保留具有唯一哈希值的文本。同時,使用 zlib4 基於文本壓縮率對文檔進行過濾,丟棄壓縮率過高和過低的去重文本。
以下是預訓練語料庫中每種語言的對數尺度標記數量表:

語言支持
支持以下語言:
南非荷蘭語 (af)、阿拉伯語 (ar)、亞美尼亞語 (hy)、阿塞拜疆語 (az)、巴斯克語 (eu)、巴什基爾語 (ba)、白俄羅斯語 (be)、孟加拉語 (bn)、保加利亞語 (bg)、緬甸語 (my)、布里亞特語 (bxr)、楚瓦什語 (cv)、丹麥語 (da)、英語 (en)、愛沙尼亞語 (et)、芬蘭語 (fi)、法語 (fr)、格魯吉亞語 (ka)、德語 (de)、希臘語 (el)、希伯來語 (he)、印地語 (hi)、匈牙利語 (hu)、印尼語 (id)、意大利語 (it)、日語 (ja)、爪哇語 (jv)、卡爾梅克語 (xal)、哈薩克語 (kk)、韓語 (ko)、吉爾吉斯語 (ky)、拉脫維亞語 (lv)、立陶宛語 (lt)、馬來語 (ms)、馬拉雅拉姆語 (ml)、馬拉地語 (mr)、蒙古語 (mn)、奧塞梯語 (os)、波斯語 (fa)、波蘭語 (pl)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、俄語 (ru)、西班牙語 (es)、瑞典語 (sv)、斯瓦希里語 (sw)、韃靼語 (tt)、泰盧固語 (te)、泰語 (th)、土耳其語 (tr)、土庫曼語 (tk)、圖瓦語 (tyv)、烏克蘭語 (uk)、烏茲別克語 (uz)、越南語 (vi)、雅庫特語 (sax)、約魯巴語 (yo)
按語系分類
語系 |
語言 |
亞非語系 |
阿拉伯語 (ar)、希伯來語 (he) |
南亞語系 |
越南語 (vi) |
南島語系 |
印尼語 (id)、爪哇語 (jv)、馬來語 (ms)、他加祿語 (tl) |
波羅的語族 |
拉脫維亞語 (lv)、立陶宛語 (lt) |
巴斯克語系 |
巴斯克語 (eu) |
達羅毗荼語系 |
馬拉雅拉姆語 (ml)、泰米爾語 (ta)、泰盧固語 (te) |
印歐語系(亞美尼亞語族) |
亞美尼亞語 (hy) |
印歐語系(印度 - 雅利安語族) |
孟加拉語 (bn)、馬拉地語 (mr)、印地語 (hi)、烏爾都語 (ur) |
印歐語系(日耳曼語族) |
南非荷蘭語 (af)、丹麥語 (da)、英語 (en)、德語 (de)、瑞典語 (sv) |
印歐語系(羅曼語族) |
法語 (fr)、意大利語 (it)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、西班牙語 (es) |
印歐語系(希臘語族) |
希臘語 (el) |
印歐語系(伊朗語族) |
奧塞梯語 (os)、塔吉克語 (tg)、波斯語 (fa) |
日本語系 |
日語 (ja) |
卡特維爾語系 |
格魯吉亞語 (ka) |
朝鮮語系 |
韓語 (ko) |
壯侗語系 |
泰語 (th) |
蒙古語族 |
布里亞特語 (bxr)、卡爾梅克語 (xal)、蒙古語 (mn) |
尼日爾 - 剛果語系 |
斯瓦希里語 (sw)、約魯巴語 (yo) |
斯拉夫語族 |
白俄羅斯語 (be)、保加利亞語 (bg)、俄語 (ru)、烏克蘭語 (uk)、波蘭語 (pl) |
漢藏語系 |
緬甸語 (my) |
突厥語族(葛邏祿語支) |
烏茲別克語 (uz) |
突厥語族(欽察語支) |
巴什基爾語 (ba)、哈薩克語 (kk)、吉爾吉斯語 (ky)、韃靼語 (tt) |
突厥語族(烏古斯語支) |
阿塞拜疆語 (az)、楚瓦什語 (cv)、土耳其語 (tr)、土庫曼語 (tk) |
突厥語族(西伯利亞語支) |
圖瓦語 (tyv)、雅庫特語 (sax) |
烏拉爾語系 |
愛沙尼亞語 (et)、芬蘭語 (fi)、匈牙利語 (hu) |
技術細節
- 訓練配置:模型在 16 個 V100 GPU 上進行 600k 個訓練步驟,使用一組固定的超參數:詞彙表大小為 100k,上下文窗口為 2048,學習率為 2e - 4,批量大小為 4。
- 架構基礎:mGPT 架構基於 GPT - 3,參考了 Brown 等人的架構描述,代碼基於 HuggingFace 庫(Wolf 等人,2020)中的 GPT - 2(Radford 等人,2019)和 Megatron - LM(Shoeybi 等人,2019)。
困惑度
mGPT13B 模型在大多數語言中,困惑度得分在 2 到 10 之間,表現出色。這些語言包括達羅毗荼語系(馬拉雅拉姆語、泰米爾語、泰盧固語)、印度 - 雅利安語系(孟加拉語、印地語、馬拉地語)、斯拉夫語族(白俄羅斯語、烏克蘭語、俄語、保加利亞語)、漢藏語系(緬甸語)、欽察語支(巴什基爾語、哈薩克語)等。僅有來自不同語系的七種語言的困惑度較高,最高可達 20。
按語言的困惑度結果

按語系的困惑度結果

分數是每個語系內語言數量的平均值。
📄 許可證
該項目採用 MIT 許可證。