🚀 越南語Llama2-7B模型訓練項目
本項目聚焦於對越南語Llama2-7B模型的訓練優化,通過重新訓練分詞器、多語言混合數據集持續預訓練等操作,提升模型在越南語及英語文本處理上的性能。
🚀 快速開始
本項目主要進行了兩方面的工作:重新訓練越南語分詞器和持續預訓練模型。以下是詳細介紹。
✨ 主要特性
重新訓練分詞器
我們採用 SentencePiece 重新訓練了一個詞彙量為20K的越南語分詞器,未使用越南語分詞技術。隨後,將此詞彙表與Llama2原有的詞彙表合併,並去除重複的標記。新的分詞器在編碼越南語文本時表現顯著提升,與ChatGPT相比,標記數量減少了50%;與原始的Llama2相比,減少了約70%。
持續預訓練模型
我們使用Llama2-chat 7B模型在一個總計40.5GB的混合數據集上進行了單輪次的持續預訓練(也稱為增量預訓練)。該混合數據集包含:
- 19GB NewsCorpus
- 1.1GB越南語維基百科
- 1.6GB 越南語書籍
- 4.5GB越南語法律文件(從thuvienphapluat爬取並自行處理)
- 2.1GB越南語法律文本(來自 C4-vi)
- 1.1GB英語書籍(從 pg19 子採樣)
- 1.1GB英語維基百科(從20220301.en維基百科子採樣)
- 10GB英語文本(從 C4-en 子採樣)
我們在DGX A100系統上使用四個A100 GPU進行了10天(約1000 GPU小時)的模型訓練。
📦 安裝指南
文檔未提及安裝相關內容,故跳過此章節。
💻 使用示例
文檔未提供代碼示例,故跳過此章節。
📚 詳細文檔
超參數設置
- 訓練機制:BFloat16混合精度
- LoRA配置:
{
"base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
模型集成
我們還提供了 LoRA部分,以便你可以自行將其與原始的Llama2-chat-7B集成。
注意事項
⚠️ 重要提示
此模型在實際使用前需要進一步的有監督微調(SFT)!
💡 使用建議
關於使用和其他注意事項,請參考 Llama 2。
訓練損失
訓練損失曲線如下:

🔧 技術細節
本項目在技術實現上主要包括重新訓練分詞器和持續預訓練模型兩個關鍵步驟。重新訓練分詞器時,利用SentencePiece工具生成越南語詞彙表並與Llama2原有詞彙表合併,有效減少了越南語文本編碼時的標記數量。在持續預訓練階段,使用多語言混合數據集,涵蓋越南語和英語的多種文本來源,在DGX A100系統上進行了長時間的訓練,通過設置特定的超參數和LoRA配置,提升模型性能。
📄 許可證
本項目基於Meta的Llama-2模型構建。在使用此模型時,必須嚴格遵守Llama-2的開源許可協議。如果你引入了第三方代碼,請確保遵守相關的開源許可協議。
需要注意的是,模型生成的內容可能會受到多種因素的影響,如計算方法、隨機元素以及量化可能存在的不準確等。因此,本項目不保證模型輸出的準確性,並且對使用模型資源及其輸出所產生的後果不承擔任何責任。
對於將本項目模型用於商業目的的用戶,開發者必須遵守當地法律法規,確保模型輸出內容的合規性。本項目對由此產生的任何產品或服務不承擔責任。
📖 引用信息
請在使用此數據集進行研究時引用我們的論文
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}
🙏 致謝
我們衷心感謝PHPC - Phenikaa大學和NVIDIA慷慨提供用於模型訓練的計算資源。同時,感謝binhvq和其他作者為收集和準備越南語文本語料庫所付出的辛勤努力。