Polyglot Ko 12.8b
モデル概要
モデル特徴
モデル能力
使用事例
🚀 Polyglot-Ko-12.8B
Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。このモデルは、韓国語の自然言語処理タスクにおいて高い性能を発揮します。
🚀 クイックスタート
このモデルは、AutoModelForCausalLM
クラスを使用して簡単に読み込むことができます。
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-12.8b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-12.8b")
✨ 主な機能
- 韓国語の自然言語処理タスクに特化した大規模言語モデル。
- 多様な韓国語データセットを用いて訓練され、幅広い韓国語表現に対応。
- 高度なハイパーパラメータ設定により、高精度な予測が可能。
📚 ドキュメント
モデルの説明
Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。
属性 | 詳細 |
---|---|
パラメータ数 \(n_{parameters}\) | 12,898,631,680 |
レイヤー数 \(n_{layers}\) | 40 |
モデル次元 \(d_{model}\) | 5120 |
フィードフォワード次元 \(d_{ff}\) | 20,480 |
ヘッド数 \(n_{heads}\) | 40 |
ヘッド次元 \(d_{head}\) | 128 |
コンテキスト長 \(n_{ctx}\) | 2,048 |
語彙数 \(n_{vocab}\) | 30,003 / 30,080 |
位置符号化 | Rotary Position Embedding (RoPE) |
RoPE次元 | 64 |
このモデルは、モデル次元が5120、フィードフォワード次元が20480の40層のトランスフォーマーレイヤーで構成されています。モデル次元は40個のヘッドに分割され、各ヘッドの次元は128です。各ヘッドの64次元には、Rotary Position Embedding (RoPE)が適用されています。このモデルは、30003のトークン化語彙を用いて訓練されています。
訓練データ
Polyglot-Ko-12.8Bは、TUNiBによって収集された863GBの韓国語データ(処理前は1.2TB)で訓練されました。データ収集プロセスは韓国の法律に準拠しています。このデータセットは、Polyglot-Koモデルの訓練を目的として収集されたため、一般公開されることはありません。
データソース | サイズ (GB) | リンク |
---|---|---|
韓国語ブログ記事 | 682.3 | - |
韓国語ニュースデータセット | 87.0 | - |
Moduコーパス | 26.4 | corpus.korean.go.kr |
韓国語特許データセット | 19.0 | - |
韓国語Q&Aデータセット | 18.1 | - |
KcBertデータセット | 12.7 | github.com/Beomi/KcBERT |
韓国語小説データセット | 6.1 | - |
韓国語オンラインコメント | 4.2 | - |
韓国語ウィキペディア | 1.4 | ko.wikipedia.org |
Clova call | < 1.0 | github.com/clovaai/ClovaCall |
Naver sentiment movie corpus | < 1.0 | github.com/e9t/nsmc |
韓国語ヘイトスピーチデータセット | < 1.0 | - |
Open subtitles | < 1.0 | opus.nlpl.eu/OpenSubtitles.php |
AIHub様々なタスクのデータセット | < 1.0 | aihub.or.kr |
標準韓国語辞書 | < 1.0 | stdict.korean.go.kr/main/main.do |
さらに、訓練データ内の個人識別情報(PII)をモデルが記憶して生成することを避けるため、前処理段階で以下の敏感な情報をマスクしました。
<|acc|>
: 銀行口座番号<|rrn|>
: 住民登録番号<|tell|>
: 電話番号
訓練手順
Polyglot-Ko-12.8Bは、GPT-NeoXフレームワークを使用して、256台のA100 GPU上で301,000ステップ、1670億トークンで訓練されました。自己回帰型言語モデルとして訓練され、次のトークンを予測する尤度を最大化するために交差エントロピー損失を使用しました。
評価結果
我々は、KOBESTデータセット(5つの下流タスクを含むベンチマーク)で、Polyglot-Ko-3.8Bを、skt/ko-gpt-trinity-1.2B-v0.5、kakaobrain/kogpt、facebook/xglm-7.5Bなどの比較可能なモデルと比較評価しました。論文に記載されているプロンプトを使用して評価を行いました。
以下の表は、few-shot例の数が異なる場合の結果を示しています。これらの結果は、lm-evaluation-harnessのpolyglotブランチと以下のスクリプトを使用して再現することができます。公平な比較のため、すべてのモデルは同じ条件下で、同じプロンプトを使用して実行されました。表中のn
は、few-shot例の数を指します。
WiCデータセットの場合は、すべてのモデルがランダムな性能を示します。
python main.py \
--model gpt2 \
--model_args pretrained='EleutherAI/polyglot-ko-3.8b' \
--tasks kobest_copa,kobest_hellaswag \
--num_fewshot $YOUR_NUM_FEWSHOT \
--batch_size $YOUR_BATCH_SIZE \
--device $YOUR_DEVICE \
--output_path $/path/to/output/
COPA (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.6696 | 0.6477 | 0.6419 | 0.6514 |
kakaobrain/kogpt | 6.0B | 0.7345 | 0.7287 | 0.7277 | 0.7479 |
facebook/xglm-7.5B | 7.5B | 0.6723 | 0.6731 | 0.6769 | 0.7119 |
EleutherAI/polyglot-ko-1.3b | 1.3B | 0.7196 | 0.7193 | 0.7204 | 0.7206 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.7595 | 0.7608 | 0.7638 | 0.7788 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.7745 | 0.7676 | 0.7775 | 0.7887 |
EleutherAI/polyglot-ko-12.8b (このモデル) | 12.8B | 0.7937 | 0.8108 | 0.8037 | 0.8369 |
HellaSwag (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.5243 | 0.5272 | 0.5166 | 0.5352 |
kakaobrain/kogpt | 6.0B | 0.5590 | 0.5833 | 0.5828 | 0.5907 |
facebook/xglm-7.5B | 7.5B | 0.5665 | 0.5689 | 0.5565 | 0.5622 |
EleutherAI/polyglot-ko-1.3b | 1.3B | 0.5247 | 0.5260 | 0.5278 | 0.5427 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.5707 | 0.5830 | 0.5670 | 0.5787 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.5976 | 0.5998 | 0.5979 | 0.6208 |
EleutherAI/polyglot-ko-12.8b (このモデル) | 12.8B | 0.5954 | 0.6306 | 0.6098 | 0.6118 |
BoolQ (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.3356 | 0.4014 | 0.3640 | 0.3560 |
kakaobrain/kogpt | 6.0B | 0.4514 | 0.5981 | 0.5499 | 0.5202 |
facebook/xglm-7.5B | 7.5B | 0.4464 | 0.3324 | 0.3324 | 0.3324 |
EleutherAI/polyglot-ko-1.3b | 1.3B | 0.3552 | 0.4751 | 0.4109 | 0.4038 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.4320 | 0.5263 | 0.4930 | 0.4038 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.4356 | 0.5698 | 0.5187 | 0.5236 |
EleutherAI/polyglot-ko-12.8b (このモデル) | 12.8B | 0.4818 | 0.6041 | 0.6289 | 0.6448 |
SentiNeg (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.6065 | 0.6878 | 0.7280 | 0.8413 |
kakaobrain/kogpt | 6.0B | 0.3747 | 0.8942 | 0.9294 | 0.9698 |
facebook/xglm-7.5B | 7.5B | 0.3578 | 0.4471 | 0.3964 | 0.5271 |
EleutherAI/polyglot-ko-1.3b | 1.3B | 0.6790 | 0.6257 | 0.5514 | 0.7851 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.4858 | 0.7950 | 0.7320 | 0.7851 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.3394 | 0.8841 | 0.8808 | 0.9521 |
EleutherAI/polyglot-ko-12.8b (このモデル) | 12.8B | 0.9117 | 0.9015 | 0.9345 | 0.9723 |
WiC (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.3290 | 0.4313 | 0.4001 | 0.3621 |
kakaobrain/kogpt | 6.0B | 0.3526 | 0.4775 | 0.4358 | 0.4061 |
facebook/xglm-7.5B | 7.5B | 0.3280 | 0.4903 | 0.4945 | 0.3656 |
EleutherAI/polyglot-ko-1.3b | 1.3B | 0.3297 | 0.4850 | 0.4650 | 0.3290 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.3390 | 0.4944 | 0.4203 | 0.3835 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.3913 | 0.4688 | 0.4189 | 0.3910 |
EleutherAI/polyglot-ko-12.8b (このモデル) | 12.8B | 0.3985 | 0.3683 | 0.3307 | 0.3273 |
制限事項とバイアス
Polyglot-Koは、次のトークン予測を最適化するために訓練されています。このような言語モデルは、様々なタスクに使用されることが多いため、予期しない結果が生じる可能性があることに注意することが重要です。たとえば、Polyglot-Koは常に最も事実的または正確な応答を返すとは限らず、統計的に最も可能性の高い応答を返すことがあります。また、Polyglotは社会的に受け入れられないまたは不快な内容を生成することがあります。敏感な内容を検閲するために、人間の管理者または他のフィルタリングメカニズムを使用することをお勧めします。
引用と関連情報
BibTeXエントリ
もし私たちの研究が役に立った場合、以下のように引用していただけると幸いです。
@misc{ko2023technical,
title={A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models},
author={Hyunwoong Ko and Kichang Yang and Minho Ryu and Taekyoon Choi and Seungmu Yang and jiwung Hyun and Sungho Park},
year={2023},
eprint={2306.02254},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
📄 ライセンス
すべてのモデルは、Apache License 2.0の条項の下でライセンスされています。
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to i



