Polyglot - Ko - 12.8Bオープンソース韓国語言語モデル、韓国語のアプリケーションシーン向けに最適化されています。

ホーム

Polyglot Ko 12.8b

EleutherAIによって開発

Polyglot-Ko-12.8BはEleutherAIの多言語チームによって開発された大規模な韓国語自己回帰型言語モデルで、12.8億のパラメータを持ち、韓国語に特化して最適化されています。

大規模言語モデル

Transformers

韓国語オープンソースライセンス:Apache-2.0 #韓国語大規模モデル #自己回帰型言語モデル #マルチタスク推論

ダウンロード数 732

リリース時間 : 10/14/2022

モデル概要

これは大規模な韓国語自己回帰型言語モデルで、GPTアーキテクチャに基づいており、韓国語のテキスト生成と理解タスクに特化して設計されています。

モデル特徴

大規模な韓国語最適化

韓国語に特化して訓練され、863GBの韓国語データで最適化されています。

機密情報保護

前処理段階で銀行口座番号、住民登録番号などの個人識別情報をマスクしています。

高性能

KOBESTベンチマークテストで優れた結果を示し、同類の韓国語モデルよりも優れています。

モデル能力

韓国語テキスト生成

韓国語言語理解

質問応答システム

テキスト補完

使用事例

自然言語処理

韓国語チャットボット

流暢な韓国語対話システムを構築します。

コンテンツ生成

韓国語の記事、ブログなどのコンテンツを自動生成します。

教育

韓国語学習支援

学習者が韓国語のテキストを理解し、生成するのを支援します。

🚀 Polyglot-Ko-12.8B

Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。このモデルは、韓国語の自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このモデルは、AutoModelForCausalLMクラスを使用して簡単に読み込むことができます。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-12.8b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-12.8b")

✨ 主な機能

韓国語の自然言語処理タスクに特化した大規模言語モデル。
多様な韓国語データセットを用いて訓練され、幅広い韓国語表現に対応。
高度なハイパーパラメータ設定により、高精度な予測が可能。

📚 ドキュメント

モデルの説明

Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。

属性	詳細
パラメータ数 \(n_{parameters}\)	12,898,631,680
レイヤー数 \(n_{layers}\)	40
モデル次元 \(d_{model}\)	5120
フィードフォワード次元 \(d_{ff}\)	20,480
ヘッド数 \(n_{heads}\)	40
ヘッド次元 \(d_{head}\)	128
コンテキスト長 \(n_{ctx}\)	2,048
語彙数 \(n_{vocab}\)	30,003 / 30,080
位置符号化	Rotary Position Embedding (RoPE)
RoPE次元	64

このモデルは、モデル次元が5120、フィードフォワード次元が20480の40層のトランスフォーマーレイヤーで構成されています。モデル次元は40個のヘッドに分割され、各ヘッドの次元は128です。各ヘッドの64次元には、Rotary Position Embedding (RoPE)が適用されています。このモデルは、30003のトークン化語彙を用いて訓練されています。

訓練データ

Polyglot-Ko-12.8Bは、TUNiBによって収集された863GBの韓国語データ（処理前は1.2TB）で訓練されました。データ収集プロセスは韓国の法律に準拠しています。このデータセットは、Polyglot-Koモデルの訓練を目的として収集されたため、一般公開されることはありません。

データソース	サイズ (GB)	リンク
韓国語ブログ記事	682.3	-
韓国語ニュースデータセット	87.0	-
Moduコーパス	26.4	corpus.korean.go.kr
韓国語特許データセット	19.0	-
韓国語Q&Aデータセット	18.1	-
KcBertデータセット	12.7	github.com/Beomi/KcBERT
韓国語小説データセット	6.1	-
韓国語オンラインコメント	4.2	-
韓国語ウィキペディア	1.4	ko.wikipedia.org
Clova call	< 1.0	github.com/clovaai/ClovaCall
Naver sentiment movie corpus	< 1.0	github.com/e9t/nsmc
韓国語ヘイトスピーチデータセット	< 1.0	-
Open subtitles	< 1.0	opus.nlpl.eu/OpenSubtitles.php
AIHub様々なタスクのデータセット	< 1.0	aihub.or.kr
標準韓国語辞書	< 1.0	stdict.korean.go.kr/main/main.do

さらに、訓練データ内の個人識別情報（PII）をモデルが記憶して生成することを避けるため、前処理段階で以下の敏感な情報をマスクしました。

<|acc|> : 銀行口座番号
<|rrn|> : 住民登録番号
<|tell|> : 電話番号

訓練手順

Polyglot-Ko-12.8Bは、GPT-NeoXフレームワークを使用して、256台のA100 GPU上で301,000ステップ、1670億トークンで訓練されました。自己回帰型言語モデルとして訓練され、次のトークンを予測する尤度を最大化するために交差エントロピー損失を使用しました。

評価結果

我々は、KOBESTデータセット（5つの下流タスクを含むベンチマーク）で、Polyglot-Ko-3.8Bを、skt/ko-gpt-trinity-1.2B-v0.5、kakaobrain/kogpt、facebook/xglm-7.5Bなどの比較可能なモデルと比較評価しました。論文に記載されているプロンプトを使用して評価を行いました。

以下の表は、few-shot例の数が異なる場合の結果を示しています。これらの結果は、lm-evaluation-harnessのpolyglotブランチと以下のスクリプトを使用して再現することができます。公平な比較のため、すべてのモデルは同じ条件下で、同じプロンプトを使用して実行されました。表中のnは、few-shot例の数を指します。

WiCデータセットの場合は、すべてのモデルがランダムな性能を示します。

python main.py \
   --model gpt2 \
   --model_args pretrained='EleutherAI/polyglot-ko-3.8b' \
   --tasks kobest_copa,kobest_hellaswag \
   --num_fewshot $YOUR_NUM_FEWSHOT \
   --batch_size $YOUR_BATCH_SIZE \
   --device $YOUR_DEVICE \
   --output_path $/path/to/output/

COPA (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.6696	0.6477	0.6419	0.6514
kakaobrain/kogpt	6.0B	0.7345	0.7287	0.7277	0.7479
facebook/xglm-7.5B	7.5B	0.6723	0.6731	0.6769	0.7119
EleutherAI/polyglot-ko-1.3b	1.3B	0.7196	0.7193	0.7204	0.7206
EleutherAI/polyglot-ko-3.8b	3.8B	0.7595	0.7608	0.7638	0.7788
EleutherAI/polyglot-ko-5.8b	5.8B	0.7745	0.7676	0.7775	0.7887
EleutherAI/polyglot-ko-12.8b (このモデル)	12.8B	0.7937	0.8108	0.8037	0.8369

HellaSwag (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.5243	0.5272	0.5166	0.5352
kakaobrain/kogpt	6.0B	0.5590	0.5833	0.5828	0.5907
facebook/xglm-7.5B	7.5B	0.5665	0.5689	0.5565	0.5622
EleutherAI/polyglot-ko-1.3b	1.3B	0.5247	0.5260	0.5278	0.5427
EleutherAI/polyglot-ko-3.8b	3.8B	0.5707	0.5830	0.5670	0.5787
EleutherAI/polyglot-ko-5.8b	5.8B	0.5976	0.5998	0.5979	0.6208
EleutherAI/polyglot-ko-12.8b (このモデル)	12.8B	0.5954	0.6306	0.6098	0.6118

BoolQ (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.3356	0.4014	0.3640	0.3560
kakaobrain/kogpt	6.0B	0.4514	0.5981	0.5499	0.5202
facebook/xglm-7.5B	7.5B	0.4464	0.3324	0.3324	0.3324
EleutherAI/polyglot-ko-1.3b	1.3B	0.3552	0.4751	0.4109	0.4038
EleutherAI/polyglot-ko-3.8b	3.8B	0.4320	0.5263	0.4930	0.4038
EleutherAI/polyglot-ko-5.8b	5.8B	0.4356	0.5698	0.5187	0.5236
EleutherAI/polyglot-ko-12.8b (このモデル)	12.8B	0.4818	0.6041	0.6289	0.6448

SentiNeg (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.6065	0.6878	0.7280	0.8413
kakaobrain/kogpt	6.0B	0.3747	0.8942	0.9294	0.9698
facebook/xglm-7.5B	7.5B	0.3578	0.4471	0.3964	0.5271
EleutherAI/polyglot-ko-1.3b	1.3B	0.6790	0.6257	0.5514	0.7851
EleutherAI/polyglot-ko-3.8b	3.8B	0.4858	0.7950	0.7320	0.7851
EleutherAI/polyglot-ko-5.8b	5.8B	0.3394	0.8841	0.8808	0.9521
EleutherAI/polyglot-ko-12.8b (このモデル)	12.8B	0.9117	0.9015	0.9345	0.9723

WiC (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.3290	0.4313	0.4001	0.3621
kakaobrain/kogpt	6.0B	0.3526	0.4775	0.4358	0.4061
facebook/xglm-7.5B	7.5B	0.3280	0.4903	0.4945	0.3656
EleutherAI/polyglot-ko-1.3b	1.3B	0.3297	0.4850	0.4650	0.3290
EleutherAI/polyglot-ko-3.8b	3.8B	0.3390	0.4944	0.4203	0.3835
EleutherAI/polyglot-ko-5.8b	5.8B	0.3913	0.4688	0.4189	0.3910
EleutherAI/polyglot-ko-12.8b (このモデル)	12.8B	0.3985	0.3683	0.3307	0.3273

制限事項とバイアス

Polyglot-Koは、次のトークン予測を最適化するために訓練されています。このような言語モデルは、様々なタスクに使用されることが多いため、予期しない結果が生じる可能性があることに注意することが重要です。たとえば、Polyglot-Koは常に最も事実的または正確な応答を返すとは限らず、統計的に最も可能性の高い応答を返すことがあります。また、Polyglotは社会的に受け入れられないまたは不快な内容を生成することがあります。敏感な内容を検閲するために、人間の管理者または他のフィルタリングメカニズムを使用することをお勧めします。

引用と関連情報

BibTeXエントリ

もし私たちの研究が役に立った場合、以下のように引用していただけると幸いです。

@misc{ko2023technical,
      title={A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models}, 
      author={Hyunwoong Ko and Kichang Yang and Minho Ryu and Taekyoon Choi and Seungmu Yang and jiwung Hyun and Sungho Park},
      year={2023},
      eprint={2306.02254},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

📄 ライセンス

すべてのモデルは、Apache License 2.0の条項の下でライセンスされています。

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to i