ベトナム語版Llama2-7b-40GBオープンソースモデル - ベトナム語処理の最適化、言語対話体験の向上

ホーム

Vietnamese Llama2 7b 40GB

bkai-foundation-modelsによって開発

Llama2-chat 7Bをベースにしたベトナム語最適化モデル。増分事前トレーニングと効率的なトークナイザーによりベトナム語処理能力を大幅に向上

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #ベトナム語最適化 #LoRAファインチューニング #多言語混合トレーニング

ダウンロード数 23

リリース時間 : 10/26/2023

モデル概要

このモデルはベトナム語に最適化されたLlama2の変種で、トークナイザーの再トレーニングと継続的な事前トレーニングにより、ベトナム語テキストのエンコード効率を大幅に改善。ベトナム語自然言語処理タスクに適しています

モデル特徴

効率的なベトナム語トークン化

SentencePieceを使用した専用トークナイザーを採用。ベトナム語エンコード効率はオリジナルLlama2比70%向上

混合データトレーニング

40.5GBの混合データセット（ベトナム語ニュース、ウィキペディア、法律文書および英語データ）を使用した増分事前トレーニング

LoRAアダプテーション

低ランク適応(LoRA)技術を採用した効率的なトレーニング。独立したLoRAモジュールを提供し統合を容易に

モデル能力

ベトナム語テキスト生成

英語テキスト生成

クロスランゲージ理解

使用事例

コンテンツ生成

ベトナム語ニュース生成

ニュースコーパスでトレーニング済み。ベトナム語慣習に沿ったニュースコンテンツを生成可能

法律支援

法律文書処理

大量のベトナム語法律テキストでトレーニング済み。法律文書の分析と生成に適しています

🚀 ベトナム語版Llama2-7Bモデルの開発

このプロジェクトでは、Llama2-7Bモデルをベースに、ベトナム語に特化した言語モデルを開発しています。新しいトークナイザーを導入し、マルチ言語のデータセットで事前学習を行うことで、ベトナム語の表現能力を向上させています。

🚀 クイックスタート

このモデルを使用するには、まず元のLlama2-7Bモデルと提供されているLoRAパーツを統合する必要があります。使用方法やその他の注意事項については、Llama 2を参照してください。

✨ 主な機能

新しいトークナイザー：SentencePieceを用いて、語彙サイズ20Kのベトナム語トークナイザーを再学習しました。これにより、ベトナム語テキストのエンコード時に、ChatGPTと比較してトークン数を50％、元のLlama2と比較して約70％削減することができます。
継続的事前学習：Llama2-chat 7Bモデルを40.5GBの混合データセットで1エポックの継続的事前学習（インクリメンタル事前学習）を行いました。

📦 インストール

このモデルを使用するには、元のLlama2-7Bモデルと提供されているLoRAパーツを統合する必要があります。具体的な手順については、Llama 2を参照してください。

🔧 技術詳細

トークナイザーの再学習

我々はSentencePieceを用いて、語彙サイズ20Kのベトナム語トークナイザーを再学習しました。ベトナム語の単語分割は使用せず、この語彙をLlama2の元の語彙と統合し、重複するトークンを削除しました。

継続的事前学習

我々は、Llama2-chat 7Bモデルを40.5GBの混合データセットで1エポックの継続的事前学習（インクリメンタル事前学習）を行いました。データセットは以下の通りです：

19 GB NewsCorpus
1.1 GB ベトナム語ウィキペディア
1.6 GB ベトナム語の本
4.5 GB ベトナム語の法律文書（thuvienphapluatからクロールし、独自に処理）
2.1 GB ベトナム語の法律テキスト（C4-viから）
1.1 GB 英語の本（pg19からサブサンプリング）
1.1 GB 英語のウィキペディア（20220301.enウィキペディアからサブサンプリング）
10 GB 英語のテキスト（C4-enからサブサンプリング）

モデルの学習は、DGX A100システムで4つのGPU A100を使用して10日間（約1000GPU時間）行いました。

ハイパーパラメータ

学習方式: BFloat16混合精度
Lora設定:

{
    "base_model_name_or_path": "meta-llama/Llama-2-7b-chat-hf",
    "bias": "none",
    "enable_lora": null,
    "fan_in_fan_out": false,
    "inference_mode": true,
    "lora_alpha": 32.0,
    "lora_dropout": 0.05,
    "merge_weights": false,
    "modules_to_save": [
        "embed_tokens",
        "lm_head"
    ],
    "peft_type": "LORA",
    "r": 8,
    "target_modules": [
        "q_proj",
        "v_proj",
        "k_proj",
        "o_proj",
        "gate_proj",
        "down_proj",
        "up_proj"
    ],
    "task_type": "CAUSAL_LM"
}

📄 ライセンス

このプロジェクトはMetaのLlama-2モデルをベースに構築されています。このモデルを使用する際には、Llama-2のオープンソースライセンス契約に厳格に準拠する必要があります。第三者のコードを組み込む場合は、関連するオープンソースライセンス契約にも準拠するようにしてください。

謝辞

我々は、モデルの学習に必要なコンピューティングリソースを提供してくれたフェニカア大学のPHPCとNVIDIAに感謝します。また、ベトナム語のテキストコーパスを収集し、準備してくれたbinhvqや他の著者にも感謝します。

引用

このデータセットをあなたの研究で使用する場合は、以下の論文を引用してください。

@article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
}

免責事項

このモデルが生成する内容は、計算方法、ランダム要素、定量化の潜在的な不正確さなど、様々な要因の影響を受ける可能性があります。したがって、このプロジェクトはモデルの出力の正確性に関する保証を一切提供せず、モデルのリソースとその出力の使用によって生じる結果に対する責任を一切負いません。このプロジェクトのモデルを商用目的で使用する場合は、開発者は地元の法令に準拠し、モデルの出力内容が適法であることを確認する必要があります。このプロジェクトは、そのような使用から生じる製品やサービスに対して一切の責任を負いません。