🚀 ベトナム語版LLaMA-2
このプロジェクトは、ベトナム語と英語のテキスト処理に特化した大規模言語モデルを開発しています。Tokenizerや事前学習データ、継続的事前学習などの工夫により、モデルの性能を向上させています。
✨ 主な機能
Tokenizer
以前のvietnamese-llama2-7b-40GBのTokenizerを強化しました。SentencePieceを、ニュース、書籍、株式、金融、法律など様々なドメインのクリーンなベトナム語文書の大規模コレクションで学習させました。前のバージョンとは異なり、元のLLaMA-2論文に従って、すべての数字を個々の数字に分割します。更新されたTokenizerは、ベトナム語テキストのエンコーディングを大幅に向上させ、ChatGPTと比較してトークン数を50%削減し、元のLlama2と比較して約70%削減します。
事前学習データ
以下は、使用したデータソースです:
- 53 GB ニュースコーパス(binhvq's NewsCorpusをクリーン化 + 重複排除し、2023年10月までの自前のクロールデータと結合)。iambestfeed氏の素晴らしいニュースデータクロール作業に感謝します。
- 1.3 GB ベトナム語ウィキペディア(2023年10月まで更新)
- 8.5 GB ベトナム語書籍
- 4.8 GB ベトナム語の法律文書(クリーン化 + 重複排除)
- 1.6 GB 株式ニュース(クリーン化 + 重複排除)
- 43 GB ベトナム語テキスト(Culturax-viからサブサンプリング)
- 2.3 GB 英語書籍(pg19からサブサンプリング)
- 2.2 GB 英語ウィキペディア
- 16 GB 英語テキスト(Culturax-enからサブサンプリング)
すべてのデータソースを統合し、最後に重複排除を行い、最終的な事前学習データセットは124 GBになりました。これには、104 GBのベトナム語テキストと20 GBの英語テキストが含まれています。
継続的事前学習
Llama2-7Bモデルを使用して、1エポックの継続的事前学習を行いました。
モデルはDGX A100システムでトレーニングし、4つのGPU A100を使用して40日間(約4000 GPU時間)かけました。
ハイパーパラメータは以下のように設定されています:
-
トレーニング方式: BFloat16混合精度
-
Lora設定:
{
"base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
また、LoRA部分も提供しているので、元のLlama2-7bと自分で統合することができます。
このモデルは、実際に使用するにはさらなる教師付き微調整(SFT)が必要です ことに注意してください!
使用方法やその他の考慮事項については、Llama 2を参照してください。
トレーニング損失
赤い線はvietnamese-llama2-7b-40GBの学習曲線を示しており、シアンの線は120 GBの新しいモデルに対応しています。

📄 ライセンス
このプロジェクトはMetaのLlama-2モデルをベースに構築されています。このモデルを使用する際には、Llama-2のオープンソースライセンス契約に厳密に準拠する必要があります。サードパーティのコードを組み込む場合は、関連するオープンソースライセンス契約に準拠していることを確認してください。
モデルが生成するコンテンツは、計算方法、ランダム要素、定量化の潜在的な不正確さなど、さまざまな要因の影響を受ける可能性があることに注意することが重要です。したがって、このプロジェクトはモデルの出力の正確性に関する保証を一切提供せず、モデルのリソースとその出力の使用に起因する結果について一切の責任を負いません。
このプロジェクトのモデルを商用目的で使用する場合は、開発者は地元の法令に準拠し、モデルの出力コンテンツが適合することを確保する必要があります。このプロジェクトは、そのような使用から派生するすべての製品やサービスについて責任を負いません。
謝辞
モデルトレーニングのための計算リソースを提供してくれたフェニカア大学のPHPCとNVIDIAに感謝します。また、ベトナム語テキストコーパスの収集と準備に尽力してくれたbinhvq、iambestfeedおよび他の著者にも感謝します。
このデータセットを使用した場合は、以下の論文を引用してください
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}