🚀 🌌 mGPT 13B
mGPT 13Bは、多言語言語モデルです。25の語族に属する61の言語(具体的な言語リストは以下を参照)を用いて訓練されており、多言語シーンにおいて強力な言語処理能力を提供します。
🚀 クイックスタート
ドキュメントにクイックスタートに関する内容は提供されていません。使用する場合は、後続の詳細情報を参考に操作してください。
✨ 主な機能
- 多言語対応:25の語族に属する61の言語をサポートし、広範な言語をカバーしています。
- 大規模データでの訓練:600GBのテキストデータで事前学習を行っており、データ源は主にMC4とウィキペディアです。
- データの最適化処理:訓練データに対して重複排除を行い、64ビットハッシュとテキスト圧縮率によるフィルタリングを行って、データ品質を保証しています。
📚 ドキュメント
データセット
このモデルは600GBのテキストで事前学習を行っており、データ源は主にMC4とウィキペディアです。訓練データには重複排除が行われており、具体的にはコーパス内の各テキストに対して64ビットハッシュを行い、一意のハッシュ値を持つテキストのみを残します。また、zlib4を使用してテキスト圧縮率に基づいてドキュメントをフィルタリングし、圧縮率が高すぎたり低すぎたりする重複排除済みのテキストを破棄します。
以下は、事前学習コーパス内の各言語の対数尺度でのトークン数の表です。

言語サポート
以下の言語をサポートしています。
アフリカーンス語 (af)、アラビア語 (ar)、アルメニア語 (hy)、アゼルバイジャン語 (az)、バスク語 (eu)、バシキール語 (ba)、ベラルーシ語 (be)、ベンガル語 (bn)、ブルガリア語 (bg)、ビルマ語 (my)、ブリヤート語 (bxr)、チュヴァシ語 (cv)、デンマーク語 (da)、英語 (en)、エストニア語 (et)、フィンランド語 (fi)、フランス語 (fr)、グルジア語 (ka)、ドイツ語 (de)、ギリシャ語 (el)、ヘブライ語 (he)、ヒンディー語 (hi)、ハンガリー語 (hu)、インドネシア語 (id)、イタリア語 (it)、日本語 (ja)、ジャワ語 (jv)、カルメック語 (xal)、カザフ語 (kk)、韓国語 (ko)、キルギス語 (ky)、ラトビア語 (lv)、リトアニア語 (lt)、マレー語 (ms)、マラヤーラム語 (ml)、マラーティー語 (mr)、モンゴル語 (mn)、オセット語 (os)、ペルシャ語 (fa)、ポーランド語 (pl)、ポルトガル語 (pt)、ルーマニア語 (ro)、ロシア語 (ru)、スペイン語 (es)、スウェーデン語 (sv)、スワヒリ語 (sw)、タタール語 (tt)、テルグ語 (te)、タイ語 (th)、トルコ語 (tr)、トルクメン語 (tk)、トゥワ語 (tyv)、ウクライナ語 (uk)、ウズベク語 (uz)、ベトナム語 (vi)、ヤクート語 (sax)、ヨルバ語 (yo)
語族別の分類
語族 |
言語 |
アフロアジア語系 |
アラビア語 (ar)、ヘブライ語 (he) |
南アジア語系 |
ベトナム語 (vi) |
南島語系 |
インドネシア語 (id)、ジャワ語 (jv)、マレー語 (ms)、タガログ語 (tl) |
バルト語族 |
ラトビア語 (lv)、リトアニア語 (lt) |
バスク語系 |
バスク語 (eu) |
ダラヴィダ語系 |
マラヤーラム語 (ml)、タミル語 (ta)、テルグ語 (te) |
印欧語系(アルメニア語族) |
アルメニア語 (hy) |
印欧語系(インド - アーリア語族) |
ベンガル語 (bn)、マラーティー語 (mr)、ヒンディー語 (hi)、ウルドゥー語 (ur) |
印欧語系(ゲルマン語族) |
アフリカーンス語 (af)、デンマーク語 (da)、英語 (en)、ドイツ語 (de)、スウェーデン語 (sv) |
印欧語系(ロマンス語族) |
フランス語 (fr)、イタリア語 (it)、ポルトガル語 (pt)、ルーマニア語 (ro)、スペイン語 (es) |
印欧語系(ギリシャ語族) |
ギリシャ語 (el) |
印欧語系(イラン語族) |
オセット語 (os)、タジク語 (tg)、ペルシャ語 (fa) |
日本語系 |
日本語 (ja) |
カルトヴェラ語系 |
グルジア語 (ka) |
朝鮮語系 |
韓国語 (ko) |
壮侗語系 |
タイ語 (th) |
モンゴル語族 |
ブリヤート語 (bxr)、カルメック語 (xal)、モンゴル語 (mn) |
ニジェール - コンゴ語系 |
スワヒリ語 (sw)、ヨルバ語 (yo) |
スラブ語族 |
ベラルーシ語 (be)、ブルガリア語 (bg)、ロシア語 (ru)、ウクライナ語 (uk)、ポーランド語 (pl) |
漢蔵語系 |
ビルマ語 (my) |
トルコ語族(ガラハン語派) |
ウズベク語 (uz) |
トルコ語族(チャガタイ語派) |
バシキール語 (ba)、カザフ語 (kk)、キルギス語 (ky)、タタール語 (tt) |
トルコ語族(ウーグル語派) |
アゼルバイジャン語 (az)、チュヴァシ語 (cv)、トルコ語 (tr)、トルクメン語 (tk) |
トルコ語族(シベリア語派) |
トゥワ語 (tyv)、ヤクート語 (sax) |
ウラル語系 |
エストニア語 (et)、フィンランド語 (fi)、ハンガリー語 (hu) |
技術詳細
- 訓練設定:モデルは16個のV100 GPU上で600kの訓練ステップを行い、固定された一連のハイパーパラメータを使用します。語彙サイズは100k、コンテキストウィンドウは2048、学習率は2e - 4、バッチサイズは4です。
- アーキテクチャの基礎:mGPTアーキテクチャはGPT - 3に基づいており、Brownらのアーキテクチャ記述を参考にしています。コードはHuggingFaceライブラリ(Wolfら、2020)のGPT - 2(Radfordら、2019)とMegatron - LM(Shoeybiら、2019)に基づいています。
困惑度
mGPT13Bモデルは、ほとんどの言語において2から10の間の困惑度スコアを記録しており、優れた性能を発揮しています。これらの言語には、ダラヴィダ語系(マラヤーラム語、タミル語、テルグ語)、インド - アーリア語系(ベンガル語、ヒンディー語、マラーティー語)、スラブ語族(ベラルーシ語、ウクライナ語、ロシア語、ブルガリア語)、漢蔵語系(ビルマ語)、チャガタイ語派(バシキール語、カザフ語)などが含まれます。異なる語系に属する7つの言語のみが高い困惑度を示し、最高で20に達することがあります。
言語別の困惑度結果

語族別の困惑度結果

スコアは各語族内の言語数の平均値です。
📄 ライセンス
このプロジェクトはMITライセンスの下で提供されています。