Polyglot Ko 1.3b
モデル概要
モデル特徴
モデル能力
使用事例
🚀 Polyglot-Ko-1.3B
Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。このモデルは、韓国語の自然言語処理タスクにおいて高い性能を発揮します。
🚀 クイックスタート
このモデルは、AutoModelForCausalLM
クラスを使用して簡単にロードできます。
from transformers import AutoTokenizer, AutoModelForCausalLM
tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-1.3b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-1.3b")
✨ 主な機能
- 大規模な韓国語データセットで訓練された自己回帰型言語モデルです。
- 様々な自然言語処理タスクに適用可能です。
📚 ドキュメント
モデルの説明
Polyglot-Koは、EleutherAIのポリグロットチームによって作成された大規模な韓国語自己回帰型言語モデルのシリーズです。
プロパティ | 詳細 |
---|---|
パラメータ数 \(n_{parameters}\) | 1,331,810,304 |
レイヤー数 \(n_{layers}\) | 24 |
モデル次元 \(d_{model}\) | 2,048 |
フィードフォワード次元 \(d_{ff}\) | 8,192 |
ヘッド数 \(n_{heads}\) | 16 |
ヘッド次元 \(d_{head}\) | 128 |
コンテキスト長 \(n_{ctx}\) | 2,048 |
語彙数 \(n_{vocab}\) | 30,003 / 30,080 |
位置符号化 | Rotary Position Embedding (RoPE) |
RoPE次元 | 64 |
このモデルは、モデル次元が2048、フィードフォワード次元が8192の24層のトランスフォーマーレイヤーで構成されています。モデル次元は16個のヘッドに分割され、各ヘッドの次元は128です。Rotary Position Embedding (RoPE) は、各ヘッドの64次元に適用されます。このモデルは、30003のトークン化語彙で訓練されています。
訓練データ
Polyglot-Ko-1.3Bは、TUNiBによって収集された863GBの韓国語データ(処理前は1.2TB)で訓練されました。データ収集プロセスは韓国の法律に準拠しています。このデータセットは、Polyglot-Koモデルの訓練を目的として収集されたため、一般公開されることはありません。
データソース | サイズ (GB) | リンク |
---|---|---|
韓国語ブログ記事 | 682.3 | - |
韓国語ニュースデータセット | 87.0 | - |
Moduコーパス | 26.4 | corpus.korean.go.kr |
韓国語特許データセット | 19.0 | - |
韓国語Q&Aデータセット | 18.1 | - |
KcBertデータセット | 12.7 | github.com/Beomi/KcBERT |
韓国語小説データセット | 6.1 | - |
韓国語オンラインコメント | 4.2 | - |
韓国語ウィキペディア | 1.4 | ko.wikipedia.org |
Clova call | < 1.0 | github.com/clovaai/ClovaCall |
Naver sentiment movie corpus | < 1.0 | github.com/e9t/nsmc |
韓国語ヘイトスピーチデータセット | < 1.0 | - |
Open subtitles | < 1.0 | opus.nlpl.eu/OpenSubtitles.php |
AIHub様々なタスクデータセット | < 1.0 | aihub.or.kr |
標準韓国語辞書 | < 1.0 | stdict.korean.go.kr/main/main.do |
さらに、訓練データ内の個人識別情報(PII)をモデルが記憶して生成することを避けるため、前処理段階で以下の機密情報をマスクしました。
<|acc|>
: 銀行口座番号<|rrn|>
: 住民登録番号<|tell|>
: 電話番号
訓練手順
Polyglot-Ko-1.3Bは、GPT-NeoXフレームワークを使用して、256台のA100 GPU上で102,000ステップにわたって2130億トークンで訓練されました。これは自己回帰型言語モデルとして訓練され、次のトークンを予測する尤度を最大化するために交差エントロピー損失を使用しました。
評価結果
我々は、KOBESTデータセット(5つの下流タスクを持つベンチマーク)で、skt/ko-gpt-trinity-1.2B-v0.5、kakaobrain/kogpt、facebook/xglm-7.5Bなどの比較可能なモデルと比較して、Polyglot-Ko-1.3Bを評価しました。論文に記載されているプロンプトを使用して評価を行いました。
以下の表は、Few-shot例の数が異なる場合の結果を示しています。これらの結果は、lm-evaluation-harnessのpolyglotブランチと以下のスクリプトを使用して再現できます。公平な比較のために、すべてのモデルは同じ条件で実行され、同じプロンプトが使用されました。表中のn
はFew-shot例の数を指します。
WiCデータセットの場合、すべてのモデルはランダムな性能を示します。
python main.py \
--model gpt2 \
--model_args pretrained='EleutherAI/polyglot-ko-1.3b' \
--tasks kobest_copa,kobest_hellaswag,kobest_boolq,kobest_sentineg,kobest_wic \
--num_fewshot $YOUR_NUM_FEWSHOT \
--batch_size $YOUR_BATCH_SIZE \
--device $YOUR_DEVICE \
--output_path $/path/to/output/
COPA (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.6696 | 0.6477 | 0.6419 | 0.6514 |
kakaobrain/kogpt | 6.0B | 0.7345 | 0.7287 | 0.7277 | 0.7479 |
facebook/xglm-7.5B | 7.5B | 0.6723 | 0.6731 | 0.6769 | 0.7119 |
EleutherAI/polyglot-ko-1.3b (このモデル) | 1.3B | 0.7196 | 0.7193 | 0.7204 | 0.7206 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.7595 | 0.7608 | 0.7638 | 0.7788 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.7745 | 0.7676 | 0.7775 | 0.7887 |
EleutherAI/polyglot-ko-12.8b | 12.8B | 0.7937 | 0.8108 | 0.8037 | 0.8369 |
HellaSwag (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.5243 | 0.5272 | 0.5166 | 0.5352 |
kakaobrain/kogpt | 6.0B | 0.5590 | 0.5833 | 0.5828 | 0.5907 |
facebook/xglm-7.5B | 7.5B | 0.5665 | 0.5689 | 0.5565 | 0.5622 |
EleutherAI/polyglot-ko-1.3b (このモデル) | 1.3B | 0.5247 | 0.5260 | 0.5278 | 0.5427 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.5707 | 0.5830 | 0.5670 | 0.5787 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.5976 | 0.5998 | 0.5979 | 0.6208 |
EleutherAI/polyglot-ko-12.8b | 12.8B | 0.5954 | 0.6306 | 0.6098 | 0.6118 |
BoolQ (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.3356 | 0.4014 | 0.3640 | 0.3560 |
kakaobrain/kogpt | 6.0B | 0.4514 | 0.5981 | 0.5499 | 0.5202 |
facebook/xglm-7.5B | 7.5B | 0.4464 | 0.3324 | 0.3324 | 0.3324 |
EleutherAI/polyglot-ko-1.3b (このモデル) | 1.3B | 0.3552 | 0.4751 | 0.4109 | 0.4038 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.4320 | 0.5263 | 0.4930 | 0.4038 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.4356 | 0.5698 | 0.5187 | 0.5236 |
EleutherAI/polyglot-ko-12.8b | 12.8B | 0.4818 | 0.6041 | 0.6289 | 0.6448 |
SentiNeg (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.6065 | 0.6878 | 0.7280 | 0.8413 |
kakaobrain/kogpt | 6.0B | 0.3747 | 0.8942 | 0.9294 | 0.9698 |
facebook/xglm-7.5B | 7.5B | 0.3578 | 0.4471 | 0.3964 | 0.5271 |
EleutherAI/polyglot-ko-1.3b (このモデル) | 1.3B | 0.6790 | 0.6257 | 0.5514 | 0.7851 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.4858 | 0.7950 | 0.7320 | 0.7851 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.3394 | 0.8841 | 0.8808 | 0.9521 |
EleutherAI/polyglot-ko-12.8b | 12.8B | 0.9117 | 0.9015 | 0.9345 | 0.9723 |
WiC (F1)
モデル | パラメータ数 | 0-shot | 5-shot | 10-shot | 50-shot |
---|---|---|---|---|---|
skt/ko-gpt-trinity-1.2B-v0.5 | 1.2B | 0.3290 | 0.4313 | 0.4001 | 0.3621 |
kakaobrain/kogpt | 6.0B | 0.3526 | 0.4775 | 0.4358 | 0.4061 |
facebook/xglm-7.5B | 7.5B | 0.3280 | 0.4903 | 0.4945 | 0.3656 |
EleutherAI/polyglot-ko-1.3b (このモデル) | 1.3B | 0.3297 | 0.4850 | 0.465 | 0.3290 |
EleutherAI/polyglot-ko-3.8b | 3.8B | 0.3390 | 0.4944 | 0.4203 | 0.3835 |
EleutherAI/polyglot-ko-5.8b | 5.8B | 0.3913 | 0.4688 | 0.4189 | 0.3910 |
EleutherAI/polyglot-ko-12.8b | 12.8B | 0.3985 | 0.3683 | 0.3307 | 0.3273 |
制限事項とバイアス
Polyglot-Koは、次のトークン予測を最適化するように訓練されています。このような言語モデルは、様々なタスクに使用されることが多いため、予期しない結果が生じる可能性があることに注意することが重要です。例えば、Polyglot-Koは常に最も事実的または正確な応答を返すとは限らず、統計的に最も可能性の高い応答を返すことがあります。また、Polyglotは社会的に受け入れられないまたは不快なコンテンツを生成する可能性があります。敏感なコンテンツを検閲するために、人間の管理者または他のフィルタリングメカニズムを使用することをお勧めします。
引用と関連情報
BibTeXエントリ
もし私たちの研究が役に立った場合は、以下を引用していただけると幸いです。
@misc{ko2023technical,
title={A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models},
author={Hyunwoong Ko and Kichang Yang and Minho Ryu and Taekyoon Choi and Seungmu Yang and jiwung Hyun and Sungho Park},
year={2023},
eprint={2306.02254},
archivePrefix={arXiv},
primaryClass={cs.CL}
}
ライセンス
すべてのモデルは、Apache License 2.0の条項に基づいてライセンスされています。
Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at
http://www.apache.org/licenses/LICENSE-2.0
Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.



