EEVE-Korean-10.8B-v1.0オープンソース韓国語大規模言語モデル - 無料で利用可能、韓国語理解能力を最適化

ホーム

EEVE Korean 10.8B V1.0

yanoljaによって開発

SOLAR-10.7B-v1.0を基に拡張した韓国語大規模言語モデルで、語彙拡張とパラメータ凍結訓練により韓国語理解能力を最適化

大規模言語モデル

Transformers

オープンソースライセンス:Apache-2.0 #韓国語最適化 #語彙拡張 #知識移行

ダウンロード数 6,117

リリース時間 : 2/7/2024

モデル概要

このモデルは韓国語に最適化された言語モデルで、語彙表の拡張と一部パラメータの微調整により、元の英語能力を保持しつつ韓国語処理性能を強化しています。

モデル特徴

効率的な語彙拡張

7段階のパラメータ凍結訓練プロセスにより、8960個の韓国語トークンを拡張し、英語から韓国語への効率的な移行を実現

知識保持

韓国語能力を拡張する一方で、基本モデルの元の英語能力を保持

精密な訓練戦略

段階的に凍結を解除する埋め込み訓練方法を採用し、新しい言語トークンの統合プロセスを最適化

モデル能力

韓国語テキスト理解

英語テキスト理解

言語生成

使用事例

自然言語処理

韓国語テキスト生成

文脈に合った韓国語テキストコンテンツを生成

クロスランゲージアプリケーション

韓国語と英語が混在するコンテンツを処理

🚀 EEVE-Korean-10.8B-v1.0

このモデルは、大規模言語モデル（LLM）の韓国語対応に特化したモデルです。upstage/SOLAR-10.7B-v1.0をベースに、韓国語の語彙を拡張し、様々な韓国語ウェブクロールデータセットでファインチューニングを行っています。

🚀 クイックスタート

Discordでコミュニティに参加しましょう！

大規模言語モデルの分野に情熱を持ち、知識や洞察を交換したい方は、私たちのDiscordサーバーにぜひ参加してください。このサーバーでは韓国語が主に使用されています。LLMの世界は急速に進化しており、積極的な情報共有がなければ、私たちの知識はすぐに古くなってしまいます。一緒に協力し、より大きな影響を与えましょう！こちらから参加できます：Discordリンク。

✨ 主な機能

専門チーム

研究	エンジニアリング	プロダクトマネジメント	UXデザイン
鄭明浩 (Myeongho Jeong)	金健 (Geon Kim)	許博京 (Bokyung Huh)	崔恩秀 (Eunsue Choi)
金承德 (Seungduk Kim)	アルフィ・リフキ (Rifqi Alfi)
崔承澤 (Seungtaek Choi)	韓相勳 (Sanghoon Han)
	姜秀賢 (Suhyun Kang)

モデルについて

このモデルは、upstage/SOLAR-10.7B-v1.0 の韓国語語彙拡張バージョンで、HuggingFace上で利用可能な様々な韓国語ウェブクロールデータセットを使用してファインチューニングされています。新しいトークンの埋め込みを事前学習し、既存のトークンの lm_head 埋め込みを部分的にファインチューニングしながら、ベースモデルの元のパラメータを保持することで、モデルの韓国語理解を拡張しました。

🔧 技術詳細

英語の基礎モデルを韓国語に適応させるために、パラメータの凍結を伴う7段階のトレーニングプロセスで、サブワードベースの埋め込みを使用しています。このアプローチでは、入力埋め込みから完全なパラメータまで段階的にトレーニングし、モデルの語彙を韓国語に拡張しています。新しい言語トークンを慎重に統合することで、モデルの多言語適用性を向上させ、因果言語モデリングの事前学習に重点を置いています。英語でトレーニングされた基礎モデルの固有の能力を活用して、知識と推論を効率的に韓国語に移行し、適応プロセスを最適化しています。

詳細については、技術レポート Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models を参照してください。

以下は、主要なアプローチの簡略化されたコードです。

# number_of_old_tokens is the size of tokenizer before vocab extension. For example, in case of EEVE-Korean-10.8B-v1.0, number_of_old_tokens is 32000.
def freeze_partial_embedding_hook(grad):
    grad[:number_of_old_tokens] = 0
    return grad

for name, param in model.named_parameters():
    if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
        param.requires_grad = True
        if "embed_tokens" in name:
            param.register_hook(freeze_partial_embedding_hook)
    else:
        param.requires_grad = False

使用方法と制限事項

このモデルは、命令ベースのトレーニングでファインチューニングされていません。韓国語タスクでは優れた性能を発揮しますが、特定のアプリケーションには注意深く検討し、さらなるトレーニングが必要な場合があります。

トレーニングの詳細

このモデルのトレーニングは、包括的かつ多様です。

語彙拡張：韓国語ウェブコーパスの頻度に基づいて、8,960の韓国語トークンを慎重に選択しました。このプロセスには、複数ラウンドのトークナイザートレーニング、手動によるキュレーション、トークン頻度分析が含まれ、モデルに豊富で関連性の高い語彙を提供しています。
1. 初期トークナイザートレーニング：韓国語ウェブコーパスで中間トークナイザーをトレーニングし、語彙数を40,000に設定しました。
2. 新しい韓国語トークンの抽出：中間トークナイザーから、元のSOLARのトークナイザーに存在しないすべての韓国語トークンを特定しました。
3. 手動によるトークナイザー構築：これらの新しい韓国語トークンに焦点を当てて、ターゲットトークナイザーを構築しました。
4. 頻度分析：ターゲットトークナイザーを使用して、100GBの韓国語コーパスを処理し、各トークンの頻度をカウントしました。
5. トークンリストの洗練：6,000回未満出現するトークンを削除し、後でモデルをトレーニングするのに十分なトークンを確保しました。
6. 単一文字の追加：欠落している韓国語の単一文字をカウントし、6,000回以上出現するものをターゲットトークナイザーに追加しました。
7. 反復的な洗練：削除または追加するトークンがなくなるまで、手順2から6を繰り返しました。
8. 新しいトークンへのトレーニングバイアス：効果的な学習のために、トレーニングデータに新しいトークンを含むテキストを多く含めるようにバイアスをかけました。

この厳格なアプローチにより、モデルに包括的で文脈的に豊富な韓国語語彙を提供しています。

📄 ライセンス

このモデルは、Apache-2.0ライセンスの下で提供されています。

📚 詳細ドキュメント

引用

@misc{kim2024efficient,
      title={Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models}, 
      author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
      year={2024},
      eprint={2402.14714},
      archivePrefix={arXiv},
      primaryClass={cs.CL}
}