🚀 beomi/Yi-Ko-6B
Yi-Ko系列模型是01-ai/Yi模型的高级迭代版本。在进一步预训练过程中,它扩展了词汇表,并纳入了韩语/英语语料库。与前身一样,Yi-Ko系列模型属于生成式文本模型,参数范围从60亿到340亿不等。本仓库聚焦于60亿预训练版本,该版本适配Hugging Face Transformers格式。如需了解其他模型,可参考下方索引。
🚀 快速开始
本README文档主要介绍了beomi/Yi-Ko-6B模型的详细信息,包括模型的基本情况、性能指标、许可证等内容。如果你想使用该模型,可根据文档中的信息进行操作。
✨ 主要特性
- 高级迭代:作为01-ai/Yi模型的高级迭代版本,融入了韩语和英语语料库进行进一步预训练。
- 参数范围广:属于生成式文本模型,参数范围从60亿到340亿。
- 适配格式:60亿预训练版本适配Hugging Face Transformers格式。
📚 详细文档
模型详情
- 模型开发者:Junbum Lee (Beomi)
- 变体:Yi-Ko系列将有60亿和340亿参数等不同规模的变体。
- 输入:模型仅接受文本输入。
- 输出:模型仅生成文本。
- 模型架构:Yi-Ko系列模型是一种自回归语言模型,采用基于Llama - 2*的优化Transformer架构。
*Yi模型架构基于Llama2,因此可通过HF上的
LlamaForCausalLM
类加载。
模型名称 |
训练数据 |
参数 |
上下文长度 |
GQA |
训练标记数 |
学习率 |
每步批量大小 |
Yi-Ko-6B |
韩语 + 英语在线数据混合 |
60亿 |
4k |
O |
>600亿 |
5e-5 |
2048 |
词汇扩展
模型名称 |
词汇量 |
描述 |
原始Yi系列 |
64000 |
Sentencepiece BPE |
扩展后的Yi-Ko系列 |
78464 |
Sentencepiece BPE。添加了韩语词汇和合并规则 |
对“안녕하세요, 오늘은 날씨가 좋네요.ㅎㅎ”进行分词
模型 |
标记数量 |
标记 |
原始Yi系列 |
47 |
['<0xEC>', '<0x95>', '<0x88>', '<0xEB>', '<0x85>', '<0x95>', '하', '<0xEC>', '<0x84>', '<0xB8>', '<0xEC>', '<0x9A>', '<0x94>', ',', '▁', '<0xEC>', '<0x98>', '<0xA4>', '<0xEB>', '<0x8A>', '<0x98>', '은', '▁', '<0xEB>', '<0x82>', '<0xA0>', '<0xEC>', '<0x94>', '<0xA8>', '가', '▁', '<0xEC>', '<0xA2>', '<0x8B>', '<0xEB>', '<0x84>', '<0xA4>', '<0xEC>', '<0x9A>', '<0x94>', '.', '<0xE3>', '<0x85>', '<0x8E>', '<0xE3>', '<0x85>', '<0x8E>'] |
扩展后的Yi-Ko系列 |
10 |
['▁안녕', '하세요', ',', '▁오늘은', '▁날', '씨가', '▁좋네요', '.', 'ㅎ', 'ㅎ'] |
*与Llama - 2 - Ko系列的韩语词汇相同 |
|
|
对“Llama 2: Open Foundation and Fine - Tuned Chat Models”进行分词
模型 |
标记数量 |
标记 |
原始Yi系列 |
21 |
['The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
扩展后的Yi-Ko系列 |
21 |
['▁The', '▁Y', 'i', '▁series', '▁models', '▁are', '▁large', '▁language', '▁models', '▁trained', '▁from', '▁scratch', '▁by', '▁developers', '▁at', '▁', '0', '1', '.', 'AI', '.'] |
*由于扩展后的Yi-Ko系列在文本开头添加了_ (以确保韩语句子分词一致),因此在英语分词时,第一个标记的差异可忽略不计。 |
|
|
模型基准测试
LM Eval Harness - 韩语(多语言分支)
beomi/Yi-Ko-6B |
0 |
5 |
10 |
50 |
kobest_boolq (macro_f1) |
0.705806 |
0.79905 |
0.814299 |
0.81704 |
kobest_copa (macro_f1) |
0.775604 |
0.808899 |
0.816866 |
0.842943 |
kobest_hellaswag (macro_f1) |
0.500876 |
0.498673 |
0.493507 |
0.492183 |
kobest_sentineg (macro_f1) |
0.404371 |
0.967254 |
0.982368 |
0.974811 |
kohatespeech (macro_f1) |
0.353428 |
0.351804 |
0.402423 |
0.503764 |
kohatespeech_apeach (macro_f1) |
0.337667 |
0.498679 |
0.471962 |
0.608401 |
kohatespeech_gen_bias (macro_f1) |
0.124535 |
0.484745 |
0.474475 |
0.461714 |
korunsmile (f1) |
0.382804 |
0.349344 |
0.391383 |
0.432875 |
nsmc (acc) |
0.55064 |
0.8801 |
0.89866 |
0.9071 |
pawsx_ko (acc) |
0.5145 |
0.54 |
0.538 |
0.5165 |
详细结果可查看此处
指标 |
值 |
平均值 |
50.27 |
AI2 Reasoning Challenge (25-Shot) |
48.89 |
HellaSwag (10-Shot) |
74.48 |
MMLU (5-Shot) |
55.72 |
TruthfulQA (0-shot) |
37.09 |
Winogrande (5-shot) |
72.93 |
GSM8k (5-shot) |
12.51 |
🔧 技术细节
- 模型架构:Yi-Ko系列模型是自回归语言模型,采用基于Llama - 2的优化Transformer架构。
- 词汇扩展:从原始Yi系列的64000词汇量扩展到78464,添加了韩语词汇和合并规则,提升了韩语分词效果。
📄 许可证
本模型采用Apache 2.0许可证(用于研究目的)。
如需用于商业目的,请发邮件至 jun@beomi.net 获取Yi-Ko系列模型的商业许可证。
引用信息
请使用以下BibTeX引用:
@misc {lee_junbum_2024,
author = { {Lee Junbum} },
title = { Yi-Ko-6B (Revision 205083a) },
year = 2024,
url = { https://huggingface.co/beomi/Yi-Ko-6B },
doi = { 10.57967/hf/1708 },
publisher = { Hugging Face }
}
致谢
本模型的训练得到了TPU Research Cloud项目的支持。
版本更新信息
更新于2024.01.29:新模型 beomi/Yi-Ko-DUS-9B 发布!🎉
更新于2023.12.03:Yi-Ko(KoEN)-6B在Open Korean LLM Leaderboard上的预训练模型排名第一🥇!🎉
更新于2023.12.01:Yi-Ko(KoEN)-6B模型Alpha版本发布🎉