EEVE-Korean-2.8B-v1.0オープンソースモデル - 韓語理解を強化し、韓語のウェブデータ向けに最適化

ホーム

EEVE Korean 2.8B V1.0

yanoljaによって開発

microsoft/phi-2を基にした韓国語語彙拡張バージョンで、韓国語ウェブスクレイピングデータセットに特化してファインチューニングされ、韓国語の理解能力が強化されています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #韓国語語彙拡張 #多段階パラメータ凍結訓練 #クロスランゲージ転移学習

ダウンロード数 2,087

リリース時間 : 2/22/2024

モデル概要

このモデルは、新しいトークンの埋め込みを事前学習し、既存のトークンの`lm_head`埋め込みを部分的にファインチューニングすることで、基本モデルの韓国語理解能力を拡張しつつ、元のパラメータを保持しています。

モデル特徴

韓国語語彙拡張

新しいトークンの埋め込みを事前学習し、既存のトークンの`lm_head`埋め込みを部分的にファインチューニングすることで、モデルの韓国語理解能力を拡張しました。

多段階パラメータ凍結訓練

7段階のパラメータ凍結訓練プロセスを採用し、入力埋め込みから完全なパラメータへと段階的に訓練することで、モデルの語彙量を効果的に拡張しました。

効率的なクロスランゲージ転移

基本モデルの固有能力を活用し、知識と推論能力を韓国語に効率的に転移させ、適応プロセスを最適化しました。

モデル能力

韓国語テキスト生成

韓国語言語理解

因果的言語モデリング

使用事例

自然言語処理

韓国語テキスト生成

一貫性があり文脈に合った韓国語テキストを生成します。

韓国語言語理解

韓国語テキストを理解し処理するため、様々なNLPタスクに適用可能です。

🚀 EEVE-Korean-2.8B-v1.0

このモデルは、韓国語のボキャブラリを拡張したmicrosoft/phi-2のバージョンです。HuggingFace上で入手可能な様々な韓国語のウェブクロールデータセットを使用してファインチューニングされています。

🚀 クイックスタート

Discordでコミュニティに参加しましょう！

大規模言語モデルの分野に情熱を持ち、知識や洞察を交換したい方は、是非当社のDiscordサーバーに参加してください。このサーバーでは主に韓国語が使用されています。LLMの分野は急速に進化しており、積極的な情報共有がなければ、私たちの知識はすぐに古くなってしまいます。一緒に協力し、より大きな影響を与えましょう！こちらから参加できます：Discordリンク。

✨ 主な機能

当社の献身的なチーム（アルファベット順）

研究	エンジニアリング	プロダクトマネジメント	UXデザイン
Myeongho Jeong	Geon Kim	Bokyung Huh	Eunsue Choi
Seungduk Kim	Rifqi Alfi
Seungtaek Choi	Sanghoon Han
	Suhyun Kang

モデルについて

このモデルは、microsoft/phi-2の韓国語ボキャブラリ拡張版で、HuggingFace上で利用可能な様々な韓国語のウェブクロールデータセットを使って特にファインチューニングされています。私たちのアプローチは、新しいトークンの埋め込みを事前学習し、既存のトークンのlm_head埋め込みを部分的にファインチューニングしながら、ベースモデルの元のパラメータを保持することで、モデルの韓国語理解を拡張することでした。

🔧 技術詳細

英語の基礎モデルを韓国語に適応させるために、私たちはサブワードベースの埋め込みを使用し、パラメータの凍結を伴う7段階のトレーニングプロセスを採用しています。このアプローチは、入力埋め込みから完全なパラメータまで段階的にトレーニングし、モデルのボキャブラリを韓国語を含むように効率的に拡張します。私たちの方法は、新しい言語トークンを慎重に統合することで、モデルの言語間適用性を向上させ、因果言語モデリングの事前学習に重点を置いています。私たちは、英語でトレーニングされた基礎モデルの固有の能力を活用して、知識と推論を韓国語に効率的に移行し、適応プロセスを最適化しています。

詳細については、当社の技術レポートを参照してください：Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models。

これが私たちの主要なアプローチの簡略化されたコードです：

# number_of_old_tokens is the size of tokenizer before vocab extension. For example, in case of EEVE-Korean-10.8B-v1.0, number_of_old_tokens is 32000.
def freeze_partial_embedding_hook(grad):
    grad[:number_of_old_tokens] = 0
    return grad

for name, param in model.named_parameters():
    if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
        param.requires_grad = True
        if "embed_tokens" in name:
            param.register_hook(freeze_partial_embedding_hook)
    else:
        param.requires_grad = False

使用方法と制限事項

このモデルは命令ベースのトレーニングでファインチューニングされていないことに注意してください。韓国語のタスクでは優れた性能を発揮しますが、特定のアプリケーションについては、慎重な検討とさらなるトレーニングが必要です。

トレーニングの詳細

当社のモデルのトレーニングは、包括的かつ多様でした：

ボキャブラリ拡張: 韓国語のウェブコーパスでの出現頻度に基づいて、8,960個の韓国語トークンを細心の注意を払って選択しました。このプロセスには、複数ラウンドのトークナイザートレーニング、手動による選別、およびトークン頻度分析が含まれ、モデルに豊富で関連性の高いボキャブラリを確保しました。
1. 初期トークナイザートレーニング: 韓国語のウェブコーパスで中間トークナイザーをトレーニングし、語彙数は40,000トークンとしました。
2. 新しい韓国語トークンの抽出: 中間トークナイザーから、元のSOLARのトークナイザーに存在しないすべての韓国語トークンを特定しました。
3. 手動によるトークナイザー構築: これらの新しい韓国語トークンに焦点を当てて、ターゲットトークナイザーを構築しました。
4. 頻度分析: ターゲットトークナイザーを使用して、100GBの韓国語コーパスを処理し、各トークンの頻度をカウントしました。
5. トークンリストの洗練: 6,000回未満出現するトークンを削除し、後でモデルをトレーニングするのに十分なトークンを確保しました。
6. 単一文字の追加: 欠落している韓国語の単一文字をカウントし、6,000回以上出現するものをターゲットトークナイザーに追加しました。
7. 反復的な洗練: 削除または追加するトークンがなくなるまで、手順2から6を繰り返しました。
8. 新しいトークンへのトレーニングバイアス: 効果的な学習のために、トレーニングデータには新しいトークンを含むテキストを多く含めるようにバイアスをかけました。

この厳格なアプローチにより、モデルに包括的で文脈豊かな韓国語ボキャブラリが確保されました。

📄 ライセンス

Apache-2.0

📚 引用

@misc{kim2024efficient,
      title={Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models}, 
      author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
      year={2024},
      eprint={2402.14714},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}

情報テーブル

属性	详情
モデルタイプ	韓国語ボキャブラリ拡張版のmicrosoft/phi-2
トレーニングデータ	韓国語のウェブクロールデータセット