🚀 beomi/Yi-Ko-6B
Yi-Koシリーズのモデルは、01-ai/Yiモデルの高度なバージョンです。拡張された語彙と韓国語/英語のコーパスを追加で事前学習することで、性能が向上しています。Yi-Koシリーズのモデルは、60億から340億のパラメータを持つ広範な生成テキストモデルの中で動作します。このリポジトリは、6B事前学習バージョンに焦点を当てており、Hugging Face Transformersフォーマットに適合するように調整されています。他のモデルにアクセスするには、以下のインデックスを参照してください。
🚀 クイックスタート
このモデルは、Hugging Face Transformersライブラリを介して簡単に使用できます。以下の手順で始めることができます。
✨ 主な機能
- Yi-Koシリーズは、01-ai/Yiモデルの高度なバージョンで、拡張された語彙と韓国語/英語のコーパスを追加で事前学習しています。
- 60億から340億のパラメータを持つ広範な生成テキストモデルの中で動作します。
- このリポジトリの6B事前学習バージョンは、Hugging Face Transformersフォーマットに適合しています。
📚 ドキュメント
モデルの詳細
- モデル開発者 Junbum Lee (Beomi)
- バリエーション Yi-Koシリーズは、6Bと34Bのパラメータサイズのバリエーションがあります。
- 入力 モデルはテキストのみを入力とします。
- 出力 モデルはテキストのみを生成します。
- モデルアーキテクチャ Yi-Koシリーズのモデルは、Llama-2*に基づく最適化されたトランスフォーマーアーキテクチャを使用する自己回帰型言語モデルです。
*YiモデルのアーキテクチャはLlama2に基づいているため、HFのLlamaForCausalLM
クラスを介してロードできます。
モデル名 |
学習データ |
パラメータ |
コンテキスト長 |
GQA |
学習トークン数 |
学習率 |
バッチサイズ(ステップごと) |
Yi-Ko-6B |
韓国語 + 英語のオンラインデータの混合 |
6B |
4k |
O |
>60B |
5e-5 |
2048 |
語彙拡張
モデル名 |
語彙サイズ |
説明 |
元のYiシリーズ |
64000 |
Sentencepiece BPE |
拡張されたYi-Koシリーズ |
78464 |
Sentencepiece BPE。韓国語の語彙とマージを追加 |
トークン化 "안녕하세요, 오늘은 날씨가 좋네요.ㅎㅎ"
モデル |
トークン数 |
トークン |
元のYiシリーズ |
47 |
['<0xEC>', '<0x95>', '<0x88>', '<0xEB>', '<0x85>', '<0x95>', '하', '<0xEC>', '<0x84>', '<0xB8>', '<0xEC>', '<0x9A>', '<0x94>', ',', '▁', '<0xEC>', '<0x98>', '<0xA4>', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '<0xEB>', '<0x82>', '<0xA0>', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '<0xEC>', '<0xA2>', '<0x8B>', '<0xEB>', '<0x84>', '<0xA4>', '<0xEC>', '<0x9A>', '<0x94>', '.', '<0xE3>', '<0x85>', '<0x8E>', '<0xE3>', '<0x85>', '<0x8E>'] |
拡張されたYi-Koシリーズ |
10 |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.', 'ㅎ', 'ㅎ'] |
Llama-2-Koシリーズと同じ韓国語語彙 |
|
|
トークン化 "Llama 2: Open Foundation and Fine-Tuned Chat Models"
モデル |
トークン数 |
トークン |
元のYiシリーズ |
21 |
['The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
拡張されたYi-Koシリーズ |
21 |
['▁The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
Llama-2-Koシリーズと同じ韓国語語彙 |
|
拡張されたYi-Koシリーズは、テキストの先頭に_ を付けるため(韓国語文のトークン化を同じにするため)、英語のトークン化では最初のトークンにほとんど違いがありません。 |
モデルベンチマーク
LM Eval Harness - 韓国語 (polyglotブランチ)
beomi/Yi-Ko-6B |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.705806 |
0.79905 |
0.814299 |
0.81704 |
kobest_copa (macro_f1) |
0.775604 |
0.808899 |
0.816866 |
0.842943 |
kobest_hellaswag (macro_f1) |
0.500876 |
0.498673 |
0.493507 |
0.492183 |
kobest_sentineg (macro_f1) |
0.404371 |
0.967254 |
0.982368 |
0.974811 |
kohatespeech (macro_f1) |
0.353428 |
0.351804 |
0.402423 |
0.503764 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.498679 |
0.471962 |
0.608401 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.484745 |
0.474475 |
0.461714 |
korunsmile (f1) |
0.382804 |
0.349344 |
0.391383 |
0.432875 |
nsmc (acc) |
0.55064 |
0.8801 |
0.89866 |
0.9071 |
pawsx_ko (acc) |
0.5145 |
0.54 |
0.538 |
0.5165 |
詳細な結果はこちらで確認できます。
メトリック |
値 |
平均 |
50.27 |
AI2 Reasoning Challenge (25-Shot) |
48.89 |
HellaSwag (10-Shot) |
74.48 |
MMLU (5-Shot) |
55.72 |
TruthfulQA (0-shot) |
37.09 |
Winogrande (5-shot) |
72.93 |
GSM8k (5-shot) |
12.51 |
📄 ライセンス
Apache 2.0 (研究目的)
商用目的の場合は、
jun@beomi.netにメールを送信して、Yi-Koシリーズの商用ライセンスを取得してください。
引用
以下のBibTeXを使用してください。
@misc {lee_junbum_2024,
author = { {Lee Junbum} },
title = { Yi-Ko-6B (Revision 205083a) },
year = 2024,
url = { https://huggingface.co/beomi/Yi-Ko-6B },
doi = { 10.57967/hf/1708 },
publisher = { Hugging Face }
}
謝辞
この学習は、TPU Research Cloudプログラムによってサポートされています。
更新情報
Update @ 2024.01.29 新しいモデル beomi/Yi-Ko-DUS-9B がリリースされました! 🎉
Update @ 2023.12.03 Yi-Ko(KoEN)-6BがOpen Korean LLM Leaderboardの事前学習モデルで1位🥇になりました! 🎉
Update @ 2023.12.01 Yi-Ko(KoEN)-6Bモデルのアルファ版がリリースされました 🎉