mGPT-13B開源多語言語言模型 - 支持61種語言，強大語言處理能力

首頁

Mgpt 13B

由ai-forever開發

mGPT 13B 是一個多語言語言模型，支持61種語言，覆蓋25個語系，基於600GB文本數據訓練，具有強大的多語言處理能力。

大型語言模型

Transformers

支持多種語言開源協議:MIT #多語言覆蓋 #大規模預訓練 #低困惑度

下載量 4,742

發布時間 : 4/18/2023

模型概述

mGPT 13B 是一個基於GPT-3架構的多語言語言模型，專注於多語言場景下的文本生成和理解任務。

模型特點

廣泛的多語言支持

支持61種語言，覆蓋25個語系，包括許多低資源語言

大規模數據訓練

在600GB的文本數據上進行預訓練，數據來源主要為MC4和維基百科

數據質量優化

通過64位哈希去重和文本壓縮率過濾，確保訓練數據質量

出色的困惑度表現

在大多數支持語言中困惑度得分在2到10之間，表現優異

模型能力

多語言文本生成

跨語言文本理解

多語言問答系統

語言翻譯輔助

使用案例

自然語言處理

多語言聊天機器人

構建支持多種語言的智能對話系統

可流暢處理61種語言的用戶輸入

跨語言信息檢索

實現不同語言文檔之間的語義搜索

利用多語言表示能力提高檢索準確性

教育技術

語言學習輔助工具

為學習多種語言的學習者提供智能輔助

支持61種語言的語法分析和示例生成

🚀 🌌 mGPT 13B

mGPT 13B 是一個多語言語言模型。它基於來自 25 個語系的 61 種語言進行訓練（具體語言列表見下文），能為多語言場景提供強大的語言處理能力。

🚀 快速開始

文檔中未提供快速開始相關內容，若有使用需求，可參考後續詳細信息進行操作。

✨ 主要特性

多語言支持：支持 61 種來自 25 個語系的語言，覆蓋範圍廣泛。
大規模數據訓練：在 600GB 的文本數據上進行預訓練，數據來源主要為 MC4 和維基百科。
數據優化處理：對訓練數據進行去重處理，通過 64 位哈希和文本壓縮率過濾，保證數據質量。

📚 詳細文檔

數據集

該模型在 600GB 的文本上進行預訓練，數據主要來源於 MC4 和維基百科。訓練數據經過去重處理，具體方式為對語料庫中的每個文本進行 64 位哈希，僅保留具有唯一哈希值的文本。同時，使用 zlib4 基於文本壓縮率對文檔進行過濾，丟棄壓縮率過高和過低的去重文本。

以下是預訓練語料庫中每種語言的對數尺度標記數量表：

語言支持

支持以下語言：南非荷蘭語 (af)、阿拉伯語 (ar)、亞美尼亞語 (hy)、阿塞拜疆語 (az)、巴斯克語 (eu)、巴什基爾語 (ba)、白俄羅斯語 (be)、孟加拉語 (bn)、保加利亞語 (bg)、緬甸語 (my)、布里亞特語 (bxr)、楚瓦什語 (cv)、丹麥語 (da)、英語 (en)、愛沙尼亞語 (et)、芬蘭語 (fi)、法語 (fr)、格魯吉亞語 (ka)、德語 (de)、希臘語 (el)、希伯來語 (he)、印地語 (hi)、匈牙利語 (hu)、印尼語 (id)、意大利語 (it)、日語 (ja)、爪哇語 (jv)、卡爾梅克語 (xal)、哈薩克語 (kk)、韓語 (ko)、吉爾吉斯語 (ky)、拉脫維亞語 (lv)、立陶宛語 (lt)、馬來語 (ms)、馬拉雅拉姆語 (ml)、馬拉地語 (mr)、蒙古語 (mn)、奧塞梯語 (os)、波斯語 (fa)、波蘭語 (pl)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、俄語 (ru)、西班牙語 (es)、瑞典語 (sv)、斯瓦希里語 (sw)、韃靼語 (tt)、泰盧固語 (te)、泰語 (th)、土耳其語 (tr)、土庫曼語 (tk)、圖瓦語 (tyv)、烏克蘭語 (uk)、烏茲別克語 (uz)、越南語 (vi)、雅庫特語 (sax)、約魯巴語 (yo)

按語系分類

語系	語言
亞非語系	阿拉伯語 (ar)、希伯來語 (he)
南亞語系	越南語 (vi)
南島語系	印尼語 (id)、爪哇語 (jv)、馬來語 (ms)、他加祿語 (tl)
波羅的語族	拉脫維亞語 (lv)、立陶宛語 (lt)
巴斯克語系	巴斯克語 (eu)
達羅毗荼語系	馬拉雅拉姆語 (ml)、泰米爾語 (ta)、泰盧固語 (te)
印歐語系（亞美尼亞語族）	亞美尼亞語 (hy)
印歐語系（印度 - 雅利安語族）	孟加拉語 (bn)、馬拉地語 (mr)、印地語 (hi)、烏爾都語 (ur)
印歐語系（日耳曼語族）	南非荷蘭語 (af)、丹麥語 (da)、英語 (en)、德語 (de)、瑞典語 (sv)
印歐語系（羅曼語族）	法語 (fr)、意大利語 (it)、葡萄牙語 (pt)、羅馬尼亞語 (ro)、西班牙語 (es)
印歐語系（希臘語族）	希臘語 (el)
印歐語系（伊朗語族）	奧塞梯語 (os)、塔吉克語 (tg)、波斯語 (fa)
日本語系	日語 (ja)
卡特維爾語系	格魯吉亞語 (ka)
朝鮮語系	韓語 (ko)
壯侗語系	泰語 (th)
蒙古語族	布里亞特語 (bxr)、卡爾梅克語 (xal)、蒙古語 (mn)
尼日爾 - 剛果語系	斯瓦希里語 (sw)、約魯巴語 (yo)
斯拉夫語族	白俄羅斯語 (be)、保加利亞語 (bg)、俄語 (ru)、烏克蘭語 (uk)、波蘭語 (pl)
漢藏語系	緬甸語 (my)
突厥語族（葛邏祿語支）	烏茲別克語 (uz)
突厥語族（欽察語支）	巴什基爾語 (ba)、哈薩克語 (kk)、吉爾吉斯語 (ky)、韃靼語 (tt)
突厥語族（烏古斯語支）	阿塞拜疆語 (az)、楚瓦什語 (cv)、土耳其語 (tr)、土庫曼語 (tk)
突厥語族（西伯利亞語支）	圖瓦語 (tyv)、雅庫特語 (sax)
烏拉爾語系	愛沙尼亞語 (et)、芬蘭語 (fi)、匈牙利語 (hu)

技術細節

訓練配置：模型在 16 個 V100 GPU 上進行 600k 個訓練步驟，使用一組固定的超參數：詞彙表大小為 100k，上下文窗口為 2048，學習率為 2e - 4，批量大小為 4。
架構基礎：mGPT 架構基於 GPT - 3，參考了 Brown 等人的架構描述，代碼基於 HuggingFace 庫（Wolf 等人，2020）中的 GPT - 2（Radford 等人，2019）和 Megatron - LM（Shoeybi 等人，2019）。

困惑度

mGPT13B 模型在大多數語言中，困惑度得分在 2 到 10 之間，表現出色。這些語言包括達羅毗荼語系（馬拉雅拉姆語、泰米爾語、泰盧固語）、印度 - 雅利安語系（孟加拉語、印地語、馬拉地語）、斯拉夫語族（白俄羅斯語、烏克蘭語、俄語、保加利亞語）、漢藏語系（緬甸語）、欽察語支（巴什基爾語、哈薩克語）等。僅有來自不同語系的七種語言的困惑度較高，最高可達 20。