🚀 韩国大语言模型(KoLLaMA)
KoLLaMA是基于LLaMA架构,在韩语、英语和代码数据集上训练的语言模型。它借助JAX框架进行训练,并得到了谷歌TPU研究云计划的支持,该计划为模型训练提供了部分计算资源。
🚀 快速开始
目前项目仍在建设中,以下是项目的待办事项进度:
- ✅ 完成新BBPE分词器的训练
- ✅ 在TPUv4 Pods上测试训练代码(使用模型并行)
- ✅ 完成转换测试(从JAX到PyTorch)
- ✅ 在最小数据集上进行语言模型训练验证(1个句子,1000步)
- ⏳ 构建数据混洗器(课程学习)
- ⏳ 训练7B模型
- ⏳ 训练13B模型
- ⏳ 训练33B模型
- ⏳ 训练65B模型
⚠️ 重要提示
此仓库正在建设中 🚧
✨ 主要特性
- 多语言支持:支持韩语和英语,适用于多语言场景的研究。
- 不同规模可选:提供7B、13B、33B和65B等不同参数规模的模型。
📚 详细文档
模型详情
- 研发人员:Junbum Lee(又名Beomi)
- 训练时间:KoLLaMA于2023年4月开始训练,其中33B模型于2023年7月开始训练。
- 模型版本:此为模型的Alpha版本。
- 模型类型:LLaMA是基于Transformer架构的自回归语言模型,有7B、13B、33B和65B等不同参数规模。本仓库包含33B模型。
- 更多信息:更多信息可参考论文“LLaMA, Open and Efficient Foundation Language Models”,链接为https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/ 。
- 引用详情
- KoLLAMA: [待确定]
- LLAMA: https://research.facebook.com/publications/llama-open-and-efficient-foundation-language-models/
- 许可证:MIT
- 反馈渠道:有关KoLLaMA的问题和建议,可通过项目的GitHub仓库提交issue。
预期用途
- 主要用途:KoLLaMA主要用于韩语开源大语言模型的研究。
- 目标用户:模型的主要目标用户是自然语言处理、机器学习和人工智能领域的研究人员。
- 不适用场景:LLaMA是基础模型,在用于下游应用前,需进行进一步的风险评估和缓解措施。特别是,该模型未经过人类反馈训练,可能会生成有害、冒犯性内容、错误信息或无用回答。
影响因素
模型性能可能因使用的语言而异。尽管训练数据包含20种语言,但大部分数据为英文文本,因此预计模型在英文上的表现会优于其他语言。此外,先前研究表明,不同方言也可能影响模型性能,本模型也可能存在此类情况。
评估数据集
[待确定]
训练数据集
[待确定]
伦理考量
- 数据:用于训练模型的数据来自多个来源,主要是网络,因此包含冒犯性、有害和有偏见的内容。预计模型会表现出训练数据中的这些偏见。
- 人类生活:模型不用于对人类生活至关重要的决策,也不应以这种方式使用。
- 风险和危害:大语言模型的风险和危害包括生成有害、冒犯性或有偏见的内容,以及经常生成错误信息(有时称为幻觉)。预计本模型也不例外。
- 使用场景:LLaMA是基础模型,在用于下游应用前,需进一步研究和缓解风险。这些风险和潜在的不良使用场景包括但不限于生成错误信息、有害、有偏见或冒犯性内容。
📄 许可证
本项目采用MIT许可证。