Polyglot-Ko-1.3bオープンソース韓国語言語モデル - 無料でデプロイして韓国語テキスト処理を支援

ホーム

Polyglot Ko 1.3b

EleutherAIによって開発

Polyglot-KoはEleutherAI多言語チームによって開発された韓国語自己回帰型言語モデルシリーズの一つで、13億のパラメータを含み、韓国語に特化して最適化されています。

大規模言語モデル

Transformers

韓国語オープンソースライセンス:Apache-2.0 #韓国語生成 #大規模事前学習 #自己回帰型言語モデル

ダウンロード数 121.13k

リリース時間 : 9/15/2022

モデル概要

これは大規模な韓国語自己回帰型言語モデルで、Transformerアーキテクチャに基づいており、様々な韓国語自然言語処理タスクに適しています。

モデル特徴

大規模韓国語トレーニング

863GBの韓国語データでトレーニングされ、様々な韓国語テキストソースを含みます

機密情報保護

前処理段階で銀行口座番号、住民登録番号などの個人識別情報をマスクしています

回転位置埋め込み

RoPE(Rotary Position Embedding)を採用し、位置エンコーディング効果を強化しています

モデル能力

韓国語テキスト生成

韓国語質問応答

韓国語テキスト補完

韓国語言語理解

使用事例

自然言語処理

韓国語テキスト生成

一貫性のある韓国語テキストを生成

韓国語質問応答システム

韓国語の質問に回答

教育

韓国語学習支援

学習者が韓国語を理解し生成するのを支援

🚀 Polyglot-Ko-1.3B

Polyglot-Koは、EleutherAIのポリグロットチームによって開発された大規模な韓国語自己回帰型言語モデルのシリーズです。このモデルは、韓国語の自然言語処理タスクにおいて高い性能を発揮します。

🚀 クイックスタート

このモデルは、AutoModelForCausalLMクラスを使用して簡単にロードできます。

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("EleutherAI/polyglot-ko-1.3b")
model = AutoModelForCausalLM.from_pretrained("EleutherAI/polyglot-ko-1.3b")

✨ 主な機能

大規模な韓国語データセットで訓練された自己回帰型言語モデルです。
様々な自然言語処理タスクに適用可能です。

📚 ドキュメント

モデルの説明

Polyglot-Koは、EleutherAIのポリグロットチームによって作成された大規模な韓国語自己回帰型言語モデルのシリーズです。

プロパティ	詳細
パラメータ数 \(n_{parameters}\)	1,331,810,304
レイヤー数 \(n_{layers}\)	24
モデル次元 \(d_{model}\)	2,048
フィードフォワード次元 \(d_{ff}\)	8,192
ヘッド数 \(n_{heads}\)	16
ヘッド次元 \(d_{head}\)	128
コンテキスト長 \(n_{ctx}\)	2,048
語彙数 \(n_{vocab}\)	30,003 / 30,080
位置符号化	Rotary Position Embedding (RoPE)
RoPE次元	64

このモデルは、モデル次元が2048、フィードフォワード次元が8192の24層のトランスフォーマーレイヤーで構成されています。モデル次元は16個のヘッドに分割され、各ヘッドの次元は128です。Rotary Position Embedding (RoPE) は、各ヘッドの64次元に適用されます。このモデルは、30003のトークン化語彙で訓練されています。

訓練データ

Polyglot-Ko-1.3Bは、TUNiBによって収集された863GBの韓国語データ（処理前は1.2TB）で訓練されました。データ収集プロセスは韓国の法律に準拠しています。このデータセットは、Polyglot-Koモデルの訓練を目的として収集されたため、一般公開されることはありません。

データソース	サイズ (GB)	リンク
韓国語ブログ記事	682.3	-
韓国語ニュースデータセット	87.0	-
Moduコーパス	26.4	corpus.korean.go.kr
韓国語特許データセット	19.0	-
韓国語Q&Aデータセット	18.1	-
KcBertデータセット	12.7	github.com/Beomi/KcBERT
韓国語小説データセット	6.1	-
韓国語オンラインコメント	4.2	-
韓国語ウィキペディア	1.4	ko.wikipedia.org
Clova call	< 1.0	github.com/clovaai/ClovaCall
Naver sentiment movie corpus	< 1.0	github.com/e9t/nsmc
韓国語ヘイトスピーチデータセット	< 1.0	-
Open subtitles	< 1.0	opus.nlpl.eu/OpenSubtitles.php
AIHub様々なタスクデータセット	< 1.0	aihub.or.kr
標準韓国語辞書	< 1.0	stdict.korean.go.kr/main/main.do

さらに、訓練データ内の個人識別情報（PII）をモデルが記憶して生成することを避けるため、前処理段階で以下の機密情報をマスクしました。

<|acc|> : 銀行口座番号
<|rrn|> : 住民登録番号
<|tell|> : 電話番号

訓練手順

Polyglot-Ko-1.3Bは、GPT-NeoXフレームワークを使用して、256台のA100 GPU上で102,000ステップにわたって2130億トークンで訓練されました。これは自己回帰型言語モデルとして訓練され、次のトークンを予測する尤度を最大化するために交差エントロピー損失を使用しました。

評価結果

我々は、KOBESTデータセット（5つの下流タスクを持つベンチマーク）で、skt/ko-gpt-trinity-1.2B-v0.5、kakaobrain/kogpt、facebook/xglm-7.5Bなどの比較可能なモデルと比較して、Polyglot-Ko-1.3Bを評価しました。論文に記載されているプロンプトを使用して評価を行いました。

以下の表は、Few-shot例の数が異なる場合の結果を示しています。これらの結果は、lm-evaluation-harnessのpolyglotブランチと以下のスクリプトを使用して再現できます。公平な比較のために、すべてのモデルは同じ条件で実行され、同じプロンプトが使用されました。表中のnはFew-shot例の数を指します。

WiCデータセットの場合、すべてのモデルはランダムな性能を示します。

python main.py \
   --model gpt2 \
   --model_args pretrained='EleutherAI/polyglot-ko-1.3b' \
   --tasks kobest_copa,kobest_hellaswag,kobest_boolq,kobest_sentineg,kobest_wic \
   --num_fewshot $YOUR_NUM_FEWSHOT \
   --batch_size $YOUR_BATCH_SIZE \
   --device $YOUR_DEVICE \
   --output_path $/path/to/output/

COPA (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.6696	0.6477	0.6419	0.6514
kakaobrain/kogpt	6.0B	0.7345	0.7287	0.7277	0.7479
facebook/xglm-7.5B	7.5B	0.6723	0.6731	0.6769	0.7119
EleutherAI/polyglot-ko-1.3b (このモデル)	1.3B	0.7196	0.7193	0.7204	0.7206
EleutherAI/polyglot-ko-3.8b	3.8B	0.7595	0.7608	0.7638	0.7788
EleutherAI/polyglot-ko-5.8b	5.8B	0.7745	0.7676	0.7775	0.7887
EleutherAI/polyglot-ko-12.8b	12.8B	0.7937	0.8108	0.8037	0.8369

HellaSwag (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.5243	0.5272	0.5166	0.5352
kakaobrain/kogpt	6.0B	0.5590	0.5833	0.5828	0.5907
facebook/xglm-7.5B	7.5B	0.5665	0.5689	0.5565	0.5622
EleutherAI/polyglot-ko-1.3b (このモデル)	1.3B	0.5247	0.5260	0.5278	0.5427
EleutherAI/polyglot-ko-3.8b	3.8B	0.5707	0.5830	0.5670	0.5787
EleutherAI/polyglot-ko-5.8b	5.8B	0.5976	0.5998	0.5979	0.6208
EleutherAI/polyglot-ko-12.8b	12.8B	0.5954	0.6306	0.6098	0.6118

BoolQ (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.3356	0.4014	0.3640	0.3560
kakaobrain/kogpt	6.0B	0.4514	0.5981	0.5499	0.5202
facebook/xglm-7.5B	7.5B	0.4464	0.3324	0.3324	0.3324
EleutherAI/polyglot-ko-1.3b (このモデル)	1.3B	0.3552	0.4751	0.4109	0.4038
EleutherAI/polyglot-ko-3.8b	3.8B	0.4320	0.5263	0.4930	0.4038
EleutherAI/polyglot-ko-5.8b	5.8B	0.4356	0.5698	0.5187	0.5236
EleutherAI/polyglot-ko-12.8b	12.8B	0.4818	0.6041	0.6289	0.6448

SentiNeg (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.6065	0.6878	0.7280	0.8413
kakaobrain/kogpt	6.0B	0.3747	0.8942	0.9294	0.9698
facebook/xglm-7.5B	7.5B	0.3578	0.4471	0.3964	0.5271
EleutherAI/polyglot-ko-1.3b (このモデル)	1.3B	0.6790	0.6257	0.5514	0.7851
EleutherAI/polyglot-ko-3.8b	3.8B	0.4858	0.7950	0.7320	0.7851
EleutherAI/polyglot-ko-5.8b	5.8B	0.3394	0.8841	0.8808	0.9521
EleutherAI/polyglot-ko-12.8b	12.8B	0.9117	0.9015	0.9345	0.9723

WiC (F1)

モデル	パラメータ数	0-shot	5-shot	10-shot	50-shot
skt/ko-gpt-trinity-1.2B-v0.5	1.2B	0.3290	0.4313	0.4001	0.3621
kakaobrain/kogpt	6.0B	0.3526	0.4775	0.4358	0.4061
facebook/xglm-7.5B	7.5B	0.3280	0.4903	0.4945	0.3656
EleutherAI/polyglot-ko-1.3b (このモデル)	1.3B	0.3297	0.4850	0.465	0.3290
EleutherAI/polyglot-ko-3.8b	3.8B	0.3390	0.4944	0.4203	0.3835
EleutherAI/polyglot-ko-5.8b	5.8B	0.3913	0.4688	0.4189	0.3910
EleutherAI/polyglot-ko-12.8b	12.8B	0.3985	0.3683	0.3307	0.3273

制限事項とバイアス

Polyglot-Koは、次のトークン予測を最適化するように訓練されています。このような言語モデルは、様々なタスクに使用されることが多いため、予期しない結果が生じる可能性があることに注意することが重要です。例えば、Polyglot-Koは常に最も事実的または正確な応答を返すとは限らず、統計的に最も可能性の高い応答を返すことがあります。また、Polyglotは社会的に受け入れられないまたは不快なコンテンツを生成する可能性があります。敏感なコンテンツを検閲するために、人間の管理者または他のフィルタリングメカニズムを使用することをお勧めします。

引用と関連情報

BibTeXエントリ

もし私たちの研究が役に立った場合は、以下を引用していただけると幸いです。

@misc{ko2023technical,
      title={A Technical Report for Polyglot-Ko: Open-Source Large-Scale Korean Language Models}, 
      author={Hyunwoong Ko and Kichang Yang and Minho Ryu and Taekyoon Choi and Seungmu Yang and jiwung Hyun and Sungho Park},
      year={2023},
      eprint={2306.02254},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

ライセンス

すべてのモデルは、Apache License 2.0の条項に基づいてライセンスされています。

Licensed under the Apache License, Version 2.0 (the "License");
you may not use this file except in compliance with the License.
You may obtain a copy of the License at

    http://www.apache.org/licenses/LICENSE-2.0

Unless required by applicable law or agreed to in writing, software
distributed under the License is distributed on an "AS IS" BASIS,
WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
See the License for the specific language governing permissions and
limitations under the License.