vietnamese-llama2-7b-120GBオープンソースベトナム語大規模言語モデル - ベトナム語と英語の双方の言語理解能力を向上させる

ホーム

Vietnamese Llama2 7b 120GB

bkai-foundation-modelsによって開発

Llama-2-7Bをベースに最適化したベトナム語大規模言語モデル。124GBのマルチドメインベトナム語・英語データで継続事前学習を行い、言語理解能力を強化

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:その他 #ベトナム語最適化 #マルチドメイン事前学習 #LoRAファインチューニング

ダウンロード数 65

リリース時間 : 12/20/2023

モデル概要

ベトナム語に特化して最適化された7Bパラメータの大規模言語モデル。LoRA技術を用いてマルチドメインベトナム語データで継続事前学習を行い、ベトナム語テキスト処理効率を大幅に向上

モデル特徴

最適化されたベトナム語トークナイザー

広範なベトナム語コーパスで訓練されたSentencePieceトークナイザー。ChatGPT比50%、元のLlama2比約70%トークン数を削減

マルチドメイン事前学習データ

124GBの高品質データ(104GBベトナム語+20GB英語)を統合。ニュース、ウィキペディア、書籍、法律文書など多分野を網羅

LoRA効率的ファインチューニング

LoRA技術を用いた継続事前学習により、モデルコアパラメータを保持しながらベトナム語能力を効果的に向上

モデル能力

ベトナム語テキスト生成

英語テキスト生成

クロスリンガル理解

マルチドメインテキスト処理

使用事例

コンテンツ生成

ベトナム語ニュース執筆

ニュースコーパスで訓練され、ニュースコンテンツ生成を支援

法律文書処理

法律文書で訓練され、関連専門テキストを処理可能

教育

ベトナム語学習支援

ベトナム語学習者の言語モデルリファレンスとして利用可能

🚀 ベトナム語版LLaMA-2

このプロジェクトは、ベトナム語と英語のテキスト処理に特化した大規模言語モデルを開発しています。Tokenizerや事前学習データ、継続的事前学習などの工夫により、モデルの性能を向上させています。

Github: https://github.com/bkai-research/Vietnamese-LLaMA-2

✨ 主な機能

Tokenizer

以前のvietnamese-llama2-7b-40GBのTokenizerを強化しました。SentencePieceを、ニュース、書籍、株式、金融、法律など様々なドメインのクリーンなベトナム語文書の大規模コレクションで学習させました。前のバージョンとは異なり、元のLLaMA-2論文に従って、すべての数字を個々の数字に分割します。更新されたTokenizerは、ベトナム語テキストのエンコーディングを大幅に向上させ、ChatGPTと比較してトークン数を50％削減し、元のLlama2と比較して約70％削減します。

事前学習データ

以下は、使用したデータソースです：

53 GB ニュースコーパス（binhvq's NewsCorpusをクリーン化 + 重複排除し、2023年10月までの自前のクロールデータと結合）。iambestfeed氏の素晴らしいニュースデータクロール作業に感謝します。
1.3 GB ベトナム語ウィキペディア（2023年10月まで更新）
8.5 GB ベトナム語書籍
4.8 GB ベトナム語の法律文書（クリーン化 + 重複排除）
1.6 GB 株式ニュース（クリーン化 + 重複排除）
43 GB ベトナム語テキスト（Culturax-viからサブサンプリング）
2.3 GB 英語書籍（pg19からサブサンプリング）
2.2 GB 英語ウィキペディア
16 GB 英語テキスト（Culturax-enからサブサンプリング）

すべてのデータソースを統合し、最後に重複排除を行い、最終的な事前学習データセットは124 GBになりました。これには、104 GBのベトナム語テキストと20 GBの英語テキストが含まれています。

継続的事前学習

Llama2-7Bモデルを使用して、1エポックの継続的事前学習を行いました。

モデルはDGX A100システムでトレーニングし、4つのGPU A100を使用して40日間（約4000 GPU時間）かけました。

ハイパーパラメータは以下のように設定されています：

トレーニング方式: BFloat16混合精度

Lora設定:

{
  "base_model_name_or_path": "meta-llama/Llama-2-7b-hf",
  "bias": "none",
  "enable_lora": null,
  "fan_in_fan_out": false,
  "inference_mode": true,
  "lora_alpha": 32.0,
  "lora_dropout": 0.05,
  "merge_weights": false,
  "modules_to_save": [
    "embed_tokens",
    "lm_head"
  ],
  "peft_type": "LORA",
  "r": 8,
  "target_modules": [
    "q_proj",
    "v_proj",
    "k_proj",
    "o_proj",
    "gate_proj",
    "down_proj",
    "up_proj"
  ],
  "task_type": "CAUSAL_LM"
}

また、LoRA部分も提供しているので、元のLlama2-7bと自分で統合することができます。

このモデルは、実際に使用するにはさらなる教師付き微調整（SFT）が必要です ことに注意してください！

使用方法やその他の考慮事項については、Llama 2を参照してください。

トレーニング損失

赤い線はvietnamese-llama2-7b-40GBの学習曲線を示しており、シアンの線は120 GBの新しいモデルに対応しています。トレーニング損失曲線

📄 ライセンス

このプロジェクトはMetaのLlama-2モデルをベースに構築されています。このモデルを使用する際には、Llama-2のオープンソースライセンス契約に厳密に準拠する必要があります。サードパーティのコードを組み込む場合は、関連するオープンソースライセンス契約に準拠していることを確認してください。モデルが生成するコンテンツは、計算方法、ランダム要素、定量化の潜在的な不正確さなど、さまざまな要因の影響を受ける可能性があることに注意することが重要です。したがって、このプロジェクトはモデルの出力の正確性に関する保証を一切提供せず、モデルのリソースとその出力の使用に起因する結果について一切の責任を負いません。このプロジェクトのモデルを商用目的で使用する場合は、開発者は地元の法令に準拠し、モデルの出力コンテンツが適合することを確保する必要があります。このプロジェクトは、そのような使用から派生するすべての製品やサービスについて責任を負いません。

謝辞

モデルトレーニングのための計算リソースを提供してくれたフェニカア大学のPHPCとNVIDIAに感謝します。また、ベトナム語テキストコーパスの収集と準備に尽力してくれたbinhvq、iambestfeedおよび他の著者にも感謝します。

このデータセットを使用した場合は、以下の論文を引用してください

  @article{duc2024towards,
    title={Towards Comprehensive Vietnamese Retrieval-Augmented Generation and Large Language Models},
    author={Nguyen Quang Duc, Le Hai Son, Nguyen Duc Nhan, Nguyen Dich Nhat Minh, Le Thanh Huong, Dinh Viet Sang},
    journal={arXiv preprint arXiv:2403.01616},
    year={2024}
  }