vietnamese-llama2-7b-120GB開源越南語大模型 - 提升越英雙語語言理解能力

首頁

Vietnamese Llama2 7b 120GB

由bkai-foundation-models開發

基於Llama-2-7B優化的越南語大語言模型，通過持續預訓練在124GB多領域越南語和英語數據上增強語言理解能力

大型語言模型

Transformers

支持多種語言開源協議:其他 #越南語優化 #多領域預訓練 #LoRA微調

下載量 65

發布時間 : 12/20/2023

模型概述

這是一個專門針對越南語優化的7B參數大語言模型，通過LoRA技術在多領域越南語數據上進行持續預訓練，顯著提升了越南語文本處理效率

模型特點

優化的越南語分詞器

在廣泛越南語語料上訓練的SentencePiece分詞器，比ChatGPT減少50%token數量，比原始Llama2減少約70%

多領域預訓練數據

整合124GB高質量數據(104GB越南語+20GB英語)，涵蓋新聞、維基百科、書籍、法律文檔等多個領域

LoRA高效微調

採用LoRA技術進行持續預訓練，保持模型核心參數不變的同時有效提升越南語能力

模型能力

越南語文本生成

英語文本生成

跨語言理解

多領域文本處理

使用案例

內容生成

越南語新聞寫作

基於新聞語料訓練，可輔助新聞內容生成

法律文檔處理

經過法律文檔訓練，可處理相關專業文本

教育

越南語學習輔助

可作為越南語學習者的語言模型參考

🚀 越南語 LLaMA - 2

越南語 LLaMA - 2 是基於 Meta 的 Llama - 2 模型開發的，通過對分詞器的優化和大量多領域數據的預訓練，提升了對越南語的處理能力。該模型在多種越南語和英語文本數據上進行持續預訓練，為越南語的自然語言處理任務提供了強大的支持。

🚀 快速開始

本項目的 GitHub 倉庫地址為：[https://github.com/bkai - research/Vietnamese - LLaMA - 2](https://github.com/bkai - research/Vietnamese - LLaMA - 2)。

需要注意的是，此模型在實際使用前需要進一步進行有監督的微調（SFT）。關於使用方法和其他注意事項，請參考 Llama 2。

✨ 主要特性

分詞器優化

我們在 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的基礎上，通過在更廣泛的越南語清潔文檔集合（涵蓋新聞、書籍、股票、金融和法律等多個領域）上訓練 SentencePiece 來增強分詞器。與之前的版本不同，我們遵循原始的 LLaMA - 2 論文，將所有數字拆分為單個數字。更新後的分詞器顯著提升了越南語文本的編碼效率，與 ChatGPT 相比，標記數量減少了 50%，與原始 Llama2 相比，減少了約 70%。

多語言數據預訓練

預訓練數據來源廣泛，包括多種越南語文本和部分英語文本：

53 GB 新聞語料庫（對 [binhvq 的新聞語料庫](https://github.com/binhvq/news - corpus) 進行清潔和去重處理，並結合我們自爬到 2023 年 10 月的數據）。感謝 iambestfeed 在爬取新聞數據方面的出色工作。
1.3 GB 越南語維基百科（更新至 2023 年 10 月）
8.5 GB [越南語書籍](https://www.kaggle.com/datasets/iambestfeeder/10000 - vietnamese - books)
4.8 GB 越南語法律文檔（清潔和去重）
1.6 GB 股票新聞（清潔和去重）
43 GB 越南語文本（從 Culturax - vi 中二次採樣）
2.3 GB 英語書籍（從 pg19 中二次採樣）
2.2 GB 英語維基百科
16 GB 英語文本（從 Culturax - en 中二次採樣）

將所有數據源合併並進行最後一次去重後，得到了一個 124 GB 的最終預訓練數據集，其中包括 104 GB 的越南語文本和 20 GB 的英語文本。

持續預訓練

我們使用 Llama2 - 7B 模型進行單輪次的持續預訓練。在 DGX A100 系統上，使用四個 A100 GPU 進行了 40 天（約 4000 GPU 小時）的訓練。

超參數設置如下：

訓練模式：BFloat16 混合精度
LoRA 配置：

{
    "base_model_name_or_path": "meta - llama/Llama - 2 - 7b - hf",
    "bias": "none",
    "enable_lora": null,
    "fan_in_fan_out": false,
    "inference_mode": true,
    "lora_alpha": 32.0,
    "lora_dropout": 0.05,
    "merge_weights": false,
    "modules_to_save": [
        "embed_tokens",
        "lm_head"
    ],
    "peft_type": "LORA",
    "r": 8,
    "target_modules": [
        "q_proj",
        "v_proj",
        "k_proj",
        "o_proj",
        "gate_proj",
        "down_proj",
        "up_proj"
    ],
    "task_type": "CAUSAL_LM"
}

我們還提供了 [LoRA 部分](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 120GB/tree/main/pt_lora_model)，以便你可以自行將其與原始的 Llama2 - 7b 集成。

訓練損失

紅線表示 [vietnamese - llama2 - 7b - 40GB](https://huggingface.co/bkai - foundation - models/vietnamese - llama2 - 7b - 40GB) 的學習曲線，青色線對應 120 GB 的新模型。 ![訓練損失曲線](https://github.com/bkai - research/Vietnamese - LLaMA - 2/raw/main/plot.png)

📄 許可證

本項目基於 Meta 的 Llama - 2 模型構建。在使用此模型時，必須嚴格遵守 Llama - 2 的開源許可協議。如果你引入第三方代碼，請確保遵守相關的開源許可協議。

免責聲明

需要注意的是，模型生成的內容可能會受到多種因素的影響，如計算方法、隨機元素和量化可能存在的不準確性。因此，本項目不保證模型輸出的準確性，並且對因使用模型資源及其輸出而產生的後果不承擔任何責任。對於將本項目模型用於商業目的的用戶，開發者必須遵守當地法律法規，確保模型輸出內容的合規性。本項目對由此產生的任何產品或服務不承擔責任。

🙏 致謝

我們感謝 PHPC - 芬卡大學和 NVIDIA 慷慨提供用於模型訓練的計算資源。同時，感謝 [binhvq](https://github.com/binhvq/news - corpus)、iambestfeed 以及其他作者在收集和準備越南語文本語料庫方面的辛勤工作。

📚 引用

如果本數據集用於你的工作，請引用我們的論文：

@article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval - Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
}