🚀 越南语Llama2-7B模型训练项目
本项目聚焦于对越南语Llama2-7B模型的训练优化,通过重新训练分词器、多语言混合数据集持续预训练等操作,提升模型在越南语及英语文本处理上的性能。
🚀 快速开始
本项目主要进行了两方面的工作:重新训练越南语分词器和持续预训练模型。以下是详细介绍。
✨ 主要特性
重新训练分词器
我们采用 SentencePiece 重新训练了一个词汇量为20K的越南语分词器,未使用越南语分词技术。随后,将此词汇表与Llama2原有的词汇表合并,并去除重复的标记。新的分词器在编码越南语文本时表现显著提升,与ChatGPT相比,标记数量减少了50%;与原始的Llama2相比,减少了约70%。
持续预训练模型
我们使用Llama2-chat 7B模型在一个总计40.5GB的混合数据集上进行了单轮次的持续预训练(也称为增量预训练)。该混合数据集包含:
- 19GB NewsCorpus
- 1.1GB越南语维基百科
- 1.6GB 越南语书籍
- 4.5GB越南语法律文件(从thuvienphapluat爬取并自行处理)
- 2.1GB越南语法律文本(来自 C4-vi)
- 1.1GB英语书籍(从 pg19 子采样)
- 1.1GB英语维基百科(从20220301.en维基百科子采样)
- 10GB英语文本(从 C4-en 子采样)
我们在DGX A100系统上使用四个A100 GPU进行了10天(约1000 GPU小时)的模型训练。
📦 安装指南
文档未提及安装相关内容,故跳过此章节。
💻 使用示例
文档未提供代码示例,故跳过此章节。
📚 详细文档
超参数设置
- 训练机制:BFloat16混合精度
- LoRA配置:
{
"base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
模型集成
我们还提供了 LoRA部分,以便你可以自行将其与原始的Llama2-chat-7B集成。
注意事项
⚠️ 重要提示
此模型在实际使用前需要进一步的有监督微调(SFT)!
💡 使用建议
关于使用和其他注意事项,请参考 Llama 2。
训练损失
训练损失曲线如下:

🔧 技术细节
本项目在技术实现上主要包括重新训练分词器和持续预训练模型两个关键步骤。重新训练分词器时,利用SentencePiece工具生成越南语词汇表并与Llama2原有词汇表合并,有效减少了越南语文本编码时的标记数量。在持续预训练阶段,使用多语言混合数据集,涵盖越南语和英语的多种文本来源,在DGX A100系统上进行了长时间的训练,通过设置特定的超参数和LoRA配置,提升模型性能。
📄 许可证
本项目基于Meta的Llama-2模型构建。在使用此模型时,必须严格遵守Llama-2的开源许可协议。如果你引入了第三方代码,请确保遵守相关的开源许可协议。
需要注意的是,模型生成的内容可能会受到多种因素的影响,如计算方法、随机元素以及量化可能存在的不准确等。因此,本项目不保证模型输出的准确性,并且对使用模型资源及其输出所产生的后果不承担任何责任。
对于将本项目模型用于商业目的的用户,开发者必须遵守当地法律法规,确保模型输出内容的合规性。本项目对由此产生的任何产品或服务不承担责任。
📖 引用信息
请在使用此数据集进行研究时引用我们的论文
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}
🙏 致谢
我们衷心感谢PHPC - Phenikaa大学和NVIDIA慷慨提供用于模型训练的计算资源。同时,感谢binhvq和其他作者为收集和准备越南语文本语料库所付出的辛勤努力。