🚀 beomi/Yi-Ko-6B
Yi-Ko系列模型是01-ai/Yi模型的高級迭代版本。在進一步預訓練過程中,它擴展了詞彙表,並納入了韓語/英語語料庫。與前身一樣,Yi-Ko系列模型屬於生成式文本模型,參數範圍從60億到340億不等。本倉庫聚焦於60億預訓練版本,該版本適配Hugging Face Transformers格式。如需瞭解其他模型,可參考下方索引。
🚀 快速開始
本README文檔主要介紹了beomi/Yi-Ko-6B模型的詳細信息,包括模型的基本情況、性能指標、許可證等內容。如果你想使用該模型,可根據文檔中的信息進行操作。
✨ 主要特性
- 高級迭代:作為01-ai/Yi模型的高級迭代版本,融入了韓語和英語語料庫進行進一步預訓練。
- 參數範圍廣:屬於生成式文本模型,參數範圍從60億到340億。
- 適配格式:60億預訓練版本適配Hugging Face Transformers格式。
📚 詳細文檔
模型詳情
- 模型開發者:Junbum Lee (Beomi)
- 變體:Yi-Ko系列將有60億和340億參數等不同規模的變體。
- 輸入:模型僅接受文本輸入。
- 輸出:模型僅生成文本。
- 模型架構:Yi-Ko系列模型是一種自迴歸語言模型,採用基於Llama - 2*的優化Transformer架構。
*Yi模型架構基於Llama2,因此可通過HF上的
LlamaForCausalLM
類加載。
模型名稱 |
訓練數據 |
參數 |
上下文長度 |
GQA |
訓練標記數 |
學習率 |
每步批量大小 |
Yi-Ko-6B |
韓語 + 英語在線數據混合 |
60億 |
4k |
O |
>600億 |
5e-5 |
2048 |
詞彙擴展
模型名稱 |
詞彙量 |
描述 |
原始Yi系列 |
64000 |
Sentencepiece BPE |
擴展後的Yi-Ko系列 |
78464 |
Sentencepiece BPE。添加了韓語詞彙和合並規則 |
對“안녕하세요, 오늘은 날씨가 좋네요.ㅎㅎ”進行分詞
模型 |
標記數量 |
標記 |
原始Yi系列 |
47 |
['<0xEC>', '<0x95>', '<0x88>', '<0xEB>', '<0x85>', '<0x95>', '하', '<0xEC>', '<0x84>', '<0xB8>', '<0xEC>', '<0x9A>', '<0x94>', ',', '▁', '<0xEC>', '<0x98>', '<0xA4>', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '<0xEB>', '<0x82>', '<0xA0>', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '<0xEC>', '<0xA2>', '<0x8B>', '<0xEB>', '<0x84>', '<0xA4>', '<0xEC>', '<0x9A>', '<0x94>', '.', '<0xE3>', '<0x85>', '<0x8E>', '<0xE3>', '<0x85>', '<0x8E>'] |
擴展後的Yi-Ko系列 |
10 |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.', 'ㅎ', 'ㅎ'] |
*與Llama - 2 - Ko系列的韓語詞彙相同 |
|
|
對“Llama 2: Open Foundation and Fine - Tuned Chat Models”進行分詞
模型 |
標記數量 |
標記 |
原始Yi系列 |
21 |
['The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
擴展後的Yi-Ko系列 |
21 |
['▁The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
*由於擴展後的Yi-Ko系列在文本開頭添加了_ (以確保韓語句子分詞一致),因此在英語分詞時,第一個標記的差異可忽略不計。 |
|
|
模型基準測試
LM Eval Harness - 韓語(多語言分支)
beomi/Yi-Ko-6B |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.705806 |
0.79905 |
0.814299 |
0.81704 |
kobest_copa (macro_f1) |
0.775604 |
0.808899 |
0.816866 |
0.842943 |
kobest_hellaswag (macro_f1) |
0.500876 |
0.498673 |
0.493507 |
0.492183 |
kobest_sentineg (macro_f1) |
0.404371 |
0.967254 |
0.982368 |
0.974811 |
kohatespeech (macro_f1) |
0.353428 |
0.351804 |
0.402423 |
0.503764 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.498679 |
0.471962 |
0.608401 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.484745 |
0.474475 |
0.461714 |
korunsmile (f1) |
0.382804 |
0.349344 |
0.391383 |
0.432875 |
nsmc (acc) |
0.55064 |
0.8801 |
0.89866 |
0.9071 |
pawsx_ko (acc) |
0.5145 |
0.54 |
0.538 |
0.5165 |
詳細結果可查看此處
指標 |
值 |
平均值 |
50.27 |
AI2 Reasoning Challenge (25-Shot) |
48.89 |
HellaSwag (10-Shot) |
74.48 |
MMLU (5-Shot) |
55.72 |
TruthfulQA (0-shot) |
37.09 |
Winogrande (5-shot) |
72.93 |
GSM8k (5-shot) |
12.51 |
🔧 技術細節
- 模型架構:Yi-Ko系列模型是自迴歸語言模型,採用基於Llama - 2的優化Transformer架構。
- 詞彙擴展:從原始Yi系列的64000詞彙量擴展到78464,添加了韓語詞彙和合並規則,提升了韓語分詞效果。
📄 許可證
本模型採用Apache 2.0許可證(用於研究目的)。
如需用於商業目的,請發郵件至 jun@beomi.net 獲取Yi-Ko系列模型的商業許可證。
引用信息
請使用以下BibTeX引用:
@misc {lee_junbum_2024,
author = { {Lee Junbum} },
title = { Yi-Ko-6B (Revision 205083a) },
year = 2024,
url = { https://huggingface.co/beomi/Yi-Ko-6B },
doi = { 10.57967/hf/1708 },
publisher = { Hugging Face }
}
致謝
本模型的訓練得到了TPU Research Cloud項目的支持。
版本更新信息
更新於2024.01.29:新模型 beomi/Yi-Ko-DUS-9B 發佈!🎉
更新於2023.12.03:Yi-Ko(KoEN)-6B在Open Korean LLM Leaderboard上的預訓練模型排名第一🥇!🎉
更新於2023.12.01:Yi-Ko(KoEN)-6B模型Alpha版本發佈🎉