vietnamese-llama2-7b-40GB開源模型 - 優化越南語處理，提升語言交互體驗

首頁

Vietnamese Llama2 7b 40GB

由bkai-foundation-models開發

基於Llama2-chat 7B的越南語優化模型，通過增量預訓練和高效分詞器顯著提升越南語處理能力

大型語言模型

Transformers

支持多種語言開源協議:其他 #越南語優化 #LoRA微調 #多語言混合訓練

下載量 23

發布時間 : 10/26/2023

模型概述

該模型是針對越南語優化的Llama2變體，通過重新訓練分詞器和持續預訓練，顯著提高了越南語文本編碼效率，適用於越南語自然語言處理任務

模型特點

高效越南語分詞

採用SentencePiece訓練專用分詞器，越南語編碼效率比原始Llama2提升70%

混合數據訓練

使用40.5GB混合數據集（越南新聞、維基、法律文檔及英文數據）進行增量預訓練

LoRA適配

採用低秩適應(LoRA)技術進行高效訓練，提供獨立LoRA模塊便於集成

模型能力

越南語文本生成

英語文本生成

跨語言理解

使用案例

內容生成

越南語新聞生成

基於新聞語料訓練，可生成符合越南語習慣的新聞內容

法律輔助

法律文檔處理

基於大量越南法律文本訓練，適合法律文檔分析和生成

🚀 越南語Llama2-7B模型訓練項目

本項目聚焦於對越南語Llama2-7B模型的訓練優化，通過重新訓練分詞器、多語言混合數據集持續預訓練等操作，提升模型在越南語及英語文本處理上的性能。

🚀 快速開始

本項目主要進行了兩方面的工作：重新訓練越南語分詞器和持續預訓練模型。以下是詳細介紹。

✨ 主要特性

重新訓練分詞器

我們採用 SentencePiece 重新訓練了一個詞彙量為20K的越南語分詞器，未使用越南語分詞技術。隨後，將此詞彙表與Llama2原有的詞彙表合併，並去除重複的標記。新的分詞器在編碼越南語文本時表現顯著提升，與ChatGPT相比，標記數量減少了50%；與原始的Llama2相比，減少了約70%。

持續預訓練模型

我們使用Llama2-chat 7B模型在一個總計40.5GB的混合數據集上進行了單輪次的持續預訓練（也稱為增量預訓練）。該混合數據集包含：

19GB NewsCorpus
1.1GB越南語維基百科
1.6GB 越南語書籍
4.5GB越南語法律文件（從thuvienphapluat爬取並自行處理）
2.1GB越南語法律文本（來自 C4-vi）
1.1GB英語書籍（從 pg19 子採樣）
1.1GB英語維基百科（從20220301.en維基百科子採樣）
10GB英語文本（從 C4-en 子採樣）

我們在DGX A100系統上使用四個A100 GPU進行了10天（約1000 GPU小時）的模型訓練。

📦 安裝指南

文檔未提及安裝相關內容，故跳過此章節。

💻 使用示例

文檔未提供代碼示例，故跳過此章節。

📚 詳細文檔

超參數設置

訓練機制：BFloat16混合精度
LoRA配置：

{
    "base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
    "bias": "none",
    "enable_lora": null,
    "fan_in_fan_out": false,
    "inference_mode": true,
    "lora_alpha": 32.0,
    "lora_dropout": 0.05,
    "merge_weights": false,
    "modules_to_save": [
        "embed_tokens",
        "lm_head"
    ],
    "peft_type": "LORA",
    "r": 8,
    "target_modules": [
        "q_proj",
        "v_proj",
        "k_proj",
        "o_proj",
        "gate_proj",
        "down_proj",
        "up_proj"
    ],
    "task_type": "CAUSAL_LM"
}

模型集成

我們還提供了 LoRA部分，以便你可以自行將其與原始的Llama2-chat-7B集成。

注意事項

⚠️ 重要提示

此模型在實際使用前需要進一步的有監督微調（SFT）！

💡 使用建議

關於使用和其他注意事項，請參考 Llama 2。

訓練損失

訓練損失曲線如下： Training Loss Curve

🔧 技術細節

本項目在技術實現上主要包括重新訓練分詞器和持續預訓練模型兩個關鍵步驟。重新訓練分詞器時，利用SentencePiece工具生成越南語詞彙表並與Llama2原有詞彙表合併，有效減少了越南語文本編碼時的標記數量。在持續預訓練階段，使用多語言混合數據集，涵蓋越南語和英語的多種文本來源，在DGX A100系統上進行了長時間的訓練，通過設置特定的超參數和LoRA配置，提升模型性能。

📄 許可證

本項目基於Meta的Llama-2模型構建。在使用此模型時，必須嚴格遵守Llama-2的開源許可協議。如果你引入了第三方代碼，請確保遵守相關的開源許可協議。

需要注意的是，模型生成的內容可能會受到多種因素的影響，如計算方法、隨機元素以及量化可能存在的不準確等。因此，本項目不保證模型輸出的準確性，並且對使用模型資源及其輸出所產生的後果不承擔任何責任。

對於將本項目模型用於商業目的的用戶，開發者必須遵守當地法律法規，確保模型輸出內容的合規性。本項目對由此產生的任何產品或服務不承擔責任。

📖 引用信息

請在使用此數據集進行研究時引用我們的論文

@article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
}