🚀 越南语 LLaMA - 2
越南语 LLaMA - 2 是基于 Meta 的 Llama - 2 模型开发的,通过对分词器的优化和大量多领域数据的预训练,提升了对越南语的处理能力。该模型在多种越南语和英语文本数据上进行持续预训练,为越南语的自然语言处理任务提供了强大的支持。
🚀 快速开始
本项目的 GitHub 仓库地址为:[https://github.com/bkai - research/Vietnamese - LLaMA - 2](https://github.com/bkai - research/Vietnamese - LLaMA - 2)。
需要注意的是,此模型在实际使用前需要进一步进行有监督的微调(SFT)。关于使用方法和其他注意事项,请参考 Llama 2。
✨ 主要特性
分词器优化
我们在 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的基础上,通过在更广泛的越南语清洁文档集合(涵盖新闻、书籍、股票、金融和法律等多个领域)上训练 SentencePiece 来增强分词器。与之前的版本不同,我们遵循原始的 LLaMA - 2 论文,将所有数字拆分为单个数字。更新后的分词器显著提升了越南语文本的编码效率,与 ChatGPT 相比,标记数量减少了 50%,与原始 Llama2 相比,减少了约 70%。
多语言数据预训练
预训练数据来源广泛,包括多种越南语文本和部分英语文本:
- 53 GB 新闻语料库(对 [binhvq 的新闻语料库](https://github.com/binhvq/news - corpus) 进行清洁和去重处理,并结合我们自爬到 2023 年 10 月的数据)。感谢 iambestfeed 在爬取新闻数据方面的出色工作。
- 1.3 GB 越南语维基百科(更新至 2023 年 10 月)
- 8.5 GB [越南语书籍](https://www.kaggle.com/datasets/iambestfeeder/10000 - vietnamese - books)
- 4.8 GB 越南语法律文档(清洁和去重)
- 1.6 GB 股票新闻(清洁和去重)
- 43 GB 越南语文本(从 Culturax - vi 中二次采样)
- 2.3 GB 英语书籍(从 pg19 中二次采样)
- 2.2 GB 英语维基百科
- 16 GB 英语文本(从 Culturax - en 中二次采样)
将所有数据源合并并进行最后一次去重后,得到了一个 124 GB 的最终预训练数据集,其中包括 104 GB 的越南语文本和 20 GB 的英语文本。
持续预训练
我们使用 Llama2 - 7B 模型进行单轮次的持续预训练。在 DGX A100 系统上,使用四个 A100 GPU 进行了 40 天(约 4000 GPU 小时)的训练。
超参数设置如下:
- 训练模式:BFloat16 混合精度
- LoRA 配置:
{
"base_model_name_or_path": "meta - llama/Llama - 2 - 7b - hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
我们还提供了 [LoRA 部分](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 120GB/tree/main/pt_lora_model),以便你可以自行将其与原始的 Llama2 - 7b 集成。
训练损失
红线表示 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的学习曲线,青色线对应 120 GB 的新模型。

📄 许可证
本项目基于 Meta 的 Llama - 2 模型构建。在使用此模型时,必须严格遵守 Llama - 2 的开源许可协议。如果你引入第三方代码,请确保遵守相关的开源许可协议。
免责声明
需要注意的是,模型生成的内容可能会受到多种因素的影响,如计算方法、随机元素和量化可能存在的不准确性。因此,本项目不保证模型输出的准确性,并且对因使用模型资源及其输出而产生的后果不承担任何责任。对于将本项目模型用于商业目的的用户,开发者必须遵守当地法律法规,确保模型输出内容的合规性。本项目对由此产生的任何产品或服务不承担责任。
🙏 致谢
我们感谢 PHPC - 芬卡大学和 NVIDIA 慷慨提供用于模型训练的计算资源。同时,感谢 [binhvq](https://github.com/binhvq/news - corpus)、iambestfeed 以及其他作者在收集和准备越南语文本语料库方面的辛勤工作。
📚 引用
如果本数据集用于你的工作,请引用我们的论文:
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval - Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}