🚀 EEVE-Korean-10.8B-v1.0
このモデルは、大規模言語モデル(LLM)の韓国語対応に特化したモデルです。upstage/SOLAR-10.7B-v1.0をベースに、韓国語の語彙を拡張し、様々な韓国語ウェブクロールデータセットでファインチューニングを行っています。

🚀 クイックスタート
Discordでコミュニティに参加しましょう!
大規模言語モデルの分野に情熱を持ち、知識や洞察を交換したい方は、私たちのDiscordサーバーにぜひ参加してください。このサーバーでは韓国語が主に使用されています。LLMの世界は急速に進化しており、積極的な情報共有がなければ、私たちの知識はすぐに古くなってしまいます。一緒に協力し、より大きな影響を与えましょう!こちらから参加できます:Discordリンク。
✨ 主な機能
専門チーム
研究 |
エンジニアリング |
プロダクトマネジメント |
UXデザイン |
鄭明浩 (Myeongho Jeong) |
金健 (Geon Kim) |
許博京 (Bokyung Huh) |
崔恩秀 (Eunsue Choi) |
金承德 (Seungduk Kim) |
アルフィ・リフキ (Rifqi Alfi) |
|
|
崔承澤 (Seungtaek Choi) |
韓相勳 (Sanghoon Han) |
|
|
|
姜秀賢 (Suhyun Kang) |
|
|
モデルについて
このモデルは、upstage/SOLAR-10.7B-v1.0 の韓国語語彙拡張バージョンで、HuggingFace上で利用可能な様々な韓国語ウェブクロールデータセットを使用してファインチューニングされています。新しいトークンの埋め込みを事前学習し、既存のトークンの lm_head
埋め込みを部分的にファインチューニングしながら、ベースモデルの元のパラメータを保持することで、モデルの韓国語理解を拡張しました。
🔧 技術詳細
英語の基礎モデルを韓国語に適応させるために、パラメータの凍結を伴う7段階のトレーニングプロセスで、サブワードベースの埋め込みを使用しています。このアプローチでは、入力埋め込みから完全なパラメータまで段階的にトレーニングし、モデルの語彙を韓国語に拡張しています。新しい言語トークンを慎重に統合することで、モデルの多言語適用性を向上させ、因果言語モデリングの事前学習に重点を置いています。英語でトレーニングされた基礎モデルの固有の能力を活用して、知識と推論を効率的に韓国語に移行し、適応プロセスを最適化しています。
詳細については、技術レポート Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models を参照してください。
以下は、主要なアプローチの簡略化されたコードです。
def freeze_partial_embedding_hook(grad):
grad[:number_of_old_tokens] = 0
return grad
for name, param in model.named_parameters():
if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
param.requires_grad = True
if "embed_tokens" in name:
param.register_hook(freeze_partial_embedding_hook)
else:
param.requires_grad = False
使用方法と制限事項
このモデルは、命令ベースのトレーニングでファインチューニングされていません。韓国語タスクでは優れた性能を発揮しますが、特定のアプリケーションには注意深く検討し、さらなるトレーニングが必要な場合があります。
トレーニングの詳細
このモデルのトレーニングは、包括的かつ多様です。
- 語彙拡張:韓国語ウェブコーパスの頻度に基づいて、8,960の韓国語トークンを慎重に選択しました。このプロセスには、複数ラウンドのトークナイザートレーニング、手動によるキュレーション、トークン頻度分析が含まれ、モデルに豊富で関連性の高い語彙を提供しています。
- 初期トークナイザートレーニング:韓国語ウェブコーパスで中間トークナイザーをトレーニングし、語彙数を40,000に設定しました。
- 新しい韓国語トークンの抽出:中間トークナイザーから、元のSOLARのトークナイザーに存在しないすべての韓国語トークンを特定しました。
- 手動によるトークナイザー構築:これらの新しい韓国語トークンに焦点を当てて、ターゲットトークナイザーを構築しました。
- 頻度分析:ターゲットトークナイザーを使用して、100GBの韓国語コーパスを処理し、各トークンの頻度をカウントしました。
- トークンリストの洗練:6,000回未満出現するトークンを削除し、後でモデルをトレーニングするのに十分なトークンを確保しました。
- 単一文字の追加:欠落している韓国語の単一文字をカウントし、6,000回以上出現するものをターゲットトークナイザーに追加しました。
- 反復的な洗練:削除または追加するトークンがなくなるまで、手順2から6を繰り返しました。
- 新しいトークンへのトレーニングバイアス:効果的な学習のために、トレーニングデータに新しいトークンを含むテキストを多く含めるようにバイアスをかけました。
この厳格なアプローチにより、モデルに包括的で文脈的に豊富な韓国語語彙を提供しています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
📚 詳細ドキュメント
引用
@misc{kim2024efficient,
title={Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models},
author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
year={2024},
eprint={2402.14714},
archivePrefix={arXiv},
primaryClass={cs.CL}
}