🚀 越南語 LLaMA - 2
越南語 LLaMA - 2 是基於 Meta 的 Llama - 2 模型開發的,通過對分詞器的優化和大量多領域數據的預訓練,提升了對越南語的處理能力。該模型在多種越南語和英語文本數據上進行持續預訓練,為越南語的自然語言處理任務提供了強大的支持。
🚀 快速開始
本項目的 GitHub 倉庫地址為:[https://github.com/bkai - research/Vietnamese - LLaMA - 2](https://github.com/bkai - research/Vietnamese - LLaMA - 2)。
需要注意的是,此模型在實際使用前需要進一步進行有監督的微調(SFT)。關於使用方法和其他注意事項,請參考 Llama 2。
✨ 主要特性
分詞器優化
我們在 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的基礎上,通過在更廣泛的越南語清潔文檔集合(涵蓋新聞、書籍、股票、金融和法律等多個領域)上訓練 SentencePiece 來增強分詞器。與之前的版本不同,我們遵循原始的 LLaMA - 2 論文,將所有數字拆分為單個數字。更新後的分詞器顯著提升了越南語文本的編碼效率,與 ChatGPT 相比,標記數量減少了 50%,與原始 Llama2 相比,減少了約 70%。
多語言數據預訓練
預訓練數據來源廣泛,包括多種越南語文本和部分英語文本:
- 53 GB 新聞語料庫(對 [binhvq 的新聞語料庫](https://github.com/binhvq/news - corpus) 進行清潔和去重處理,並結合我們自爬到 2023 年 10 月的數據)。感謝 iambestfeed 在爬取新聞數據方面的出色工作。
- 1.3 GB 越南語維基百科(更新至 2023 年 10 月)
- 8.5 GB [越南語書籍](https://www.kaggle.com/datasets/iambestfeeder/10000 - vietnamese - books)
- 4.8 GB 越南語法律文檔(清潔和去重)
- 1.6 GB 股票新聞(清潔和去重)
- 43 GB 越南語文本(從 Culturax - vi 中二次採樣)
- 2.3 GB 英語書籍(從 pg19 中二次採樣)
- 2.2 GB 英語維基百科
- 16 GB 英語文本(從 Culturax - en 中二次採樣)
將所有數據源合併並進行最後一次去重後,得到了一個 124 GB 的最終預訓練數據集,其中包括 104 GB 的越南語文本和 20 GB 的英語文本。
持續預訓練
我們使用 Llama2 - 7B 模型進行單輪次的持續預訓練。在 DGX A100 系統上,使用四個 A100 GPU 進行了 40 天(約 4000 GPU 小時)的訓練。
超參數設置如下:
- 訓練模式:BFloat16 混合精度
- LoRA 配置:
{
"base_model_name_or_path": "meta - llama/Llama - 2 - 7b - hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
我們還提供了 [LoRA 部分](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 120GB/tree/main/pt_lora_model),以便你可以自行將其與原始的 Llama2 - 7b 集成。
訓練損失
紅線表示 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的學習曲線,青色線對應 120 GB 的新模型。

📄 許可證
本項目基於 Meta 的 Llama - 2 模型構建。在使用此模型時,必須嚴格遵守 Llama - 2 的開源許可協議。如果你引入第三方代碼,請確保遵守相關的開源許可協議。
免責聲明
需要注意的是,模型生成的內容可能會受到多種因素的影響,如計算方法、隨機元素和量化可能存在的不準確性。因此,本項目不保證模型輸出的準確性,並且對因使用模型資源及其輸出而產生的後果不承擔任何責任。對於將本項目模型用於商業目的的用戶,開發者必須遵守當地法律法規,確保模型輸出內容的合規性。本項目對由此產生的任何產品或服務不承擔責任。
🙏 致謝
我們感謝 PHPC - 芬卡大學和 NVIDIA 慷慨提供用於模型訓練的計算資源。同時,感謝 [binhvq](https://github.com/binhvq/news - corpus)、iambestfeed 以及其他作者在收集和準備越南語文本語料庫方面的辛勤工作。
📚 引用
如果本數據集用於你的工作,請引用我們的論文:
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval - Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}