🚀 ベトナム語版Llama2-7Bモデルの開発
このプロジェクトでは、Llama2-7Bモデルをベースに、ベトナム語に特化した言語モデルを開発しています。新しいトークナイザーを導入し、マルチ言語のデータセットで事前学習を行うことで、ベトナム語の表現能力を向上させています。
🚀 クイックスタート
このモデルを使用するには、まず元のLlama2-7Bモデルと提供されているLoRAパーツを統合する必要があります。使用方法やその他の注意事項については、Llama 2を参照してください。
✨ 主な機能
- 新しいトークナイザー:SentencePieceを用いて、語彙サイズ20Kのベトナム語トークナイザーを再学習しました。これにより、ベトナム語テキストのエンコード時に、ChatGPTと比較してトークン数を50%、元のLlama2と比較して約70%削減することができます。
- 継続的事前学習:Llama2-chat 7Bモデルを40.5GBの混合データセットで1エポックの継続的事前学習(インクリメンタル事前学習)を行いました。
📦 インストール
このモデルを使用するには、元のLlama2-7Bモデルと提供されているLoRAパーツを統合する必要があります。具体的な手順については、Llama 2を参照してください。
🔧 技術詳細
トークナイザーの再学習
我々はSentencePieceを用いて、語彙サイズ20Kのベトナム語トークナイザーを再学習しました。ベトナム語の単語分割は使用せず、この語彙をLlama2の元の語彙と統合し、重複するトークンを削除しました。
継続的事前学習
我々は、Llama2-chat 7Bモデルを40.5GBの混合データセットで1エポックの継続的事前学習(インクリメンタル事前学習)を行いました。データセットは以下の通りです:
- 19 GB NewsCorpus
- 1.1 GB ベトナム語ウィキペディア
- 1.6 GB ベトナム語の本
- 4.5 GB ベトナム語の法律文書(thuvienphapluatからクロールし、独自に処理)
- 2.1 GB ベトナム語の法律テキスト(C4-viから)
- 1.1 GB 英語の本(pg19からサブサンプリング)
- 1.1 GB 英語のウィキペディア(20220301.enウィキペディアからサブサンプリング)
- 10 GB 英語のテキスト(C4-enからサブサンプリング)
モデルの学習は、DGX A100システムで4つのGPU A100を使用して10日間(約1000GPU時間)行いました。
ハイパーパラメータ
- 学習方式: BFloat16混合精度
- Lora設定:
{
"base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
"bias": "none",
"enable_lora": null,
"fan_in_fan_out": false,
"inference_mode": true,
"lora_alpha": 32.0,
"lora_dropout": 0.05,
"merge_weights": false,
"modules_to_save": [
"embed_tokens",
"lm_head"
],
"peft_type": "LORA",
"r": 8,
"target_modules": [
"q_proj",
"v_proj",
"k_proj",
"o_proj",
"gate_proj",
"down_proj",
"up_proj"
],
"task_type": "CAUSAL_LM"
}
📄 ライセンス
このプロジェクトはMetaのLlama-2モデルをベースに構築されています。このモデルを使用する際には、Llama-2のオープンソースライセンス契約に厳格に準拠する必要があります。第三者のコードを組み込む場合は、関連するオープンソースライセンス契約にも準拠するようにしてください。
謝辞
我々は、モデルの学習に必要なコンピューティングリソースを提供してくれたフェニカア大学のPHPCとNVIDIAに感謝します。また、ベトナム語のテキストコーパスを収集し、準備してくれたbinhvqや他の著者にも感謝します。
引用
このデータセットをあなたの研究で使用する場合は、以下の論文を引用してください。
@article{duc2024towards,
title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
journal={arXiv preprint arXiv:2403.01616},
year={2024}
}
免責事項
このモデルが生成する内容は、計算方法、ランダム要素、定量化の潜在的な不正確さなど、様々な要因の影響を受ける可能性があります。したがって、このプロジェクトはモデルの出力の正確性に関する保証を一切提供せず、モデルのリソースとその出力の使用によって生じる結果に対する責任を一切負いません。このプロジェクトのモデルを商用目的で使用する場合は、開発者は地元の法令に準拠し、モデルの出力内容が適法であることを確認する必要があります。このプロジェクトは、そのような使用から生じる製品やサービスに対して一切の責任を負いません。