🚀 EEVE-Korean-2.8B-v1.0
EEVE-Korean-2.8B-v1.0 是 microsoft/phi-2 的韓語詞彙擴展版本,在多種韓語網絡爬取數據集上進行了微調。該模型通過預訓練新標記的嵌入並部分微調已有標記的 lm_head
嵌入,同時保留基礎模型的原始參數,增強了對韓語的理解。

🚀 快速開始
加入我們的 Discord 社區!
如果您熱衷於大語言模型領域,希望交流知識和見解,我們誠摯地邀請您加入我們的 Discord 服務器。需要注意的是,該服務器主要使用韓語交流。大語言模型領域發展迅速,如果不積極分享,我們的集體知識很快就會過時。讓我們攜手合作,產生更大的影響力!點擊此處加入:Discord 鏈接。
✨ 主要特性
專業團隊研發
研究人員 |
工程師 |
產品管理 |
用戶體驗設計 |
鄭明浩 金承德 崔承澤 |
金健 裡夫基·阿爾菲 韓相勳 姜賢允 |
許寶京 |
崔恩秀 |
模型優勢
本模型是 microsoft/phi-2 的韓語詞彙擴展版本,在 HuggingFace 上的各種韓語網絡爬取數據集上進行了專門的微調。我們通過對新標記的嵌入進行預訓練,並對已有標記的 lm_head
嵌入進行部分微調,同時保留基礎模型的原始參數,從而擴展了模型對韓語的理解。
🔧 技術細節
為了將基礎模型從英語適配到韓語,我們採用了基於子詞的嵌入方法,並進行了七階段的參數凍結訓練過程。這種方法從輸入嵌入開始逐步訓練到全參數,有效地將模型的詞彙擴展到包括韓語。我們的方法通過精心整合新的語言標記,專注於因果語言建模預訓練,增強了模型的跨語言適用性。我們利用在英語上訓練的基礎模型的固有能力,有效地將知識和推理遷移到韓語,優化了適配過程。
更多詳細信息,請參考我們的技術報告:Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models。
關鍵代碼示例
def freeze_partial_embedding_hook(grad):
grad[:number_of_old_tokens] = 0
return grad
for name, param in model.named_parameters():
if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
param.requires_grad = True
if "embed_tokens" in name:
param.register_hook(freeze_partial_embedding_hook)
else:
param.requires_grad = False
使用與限制
請記住,此模型尚未進行基於指令的微調訓練。雖然它在韓語任務中表現出色,但我們建議針對特定應用進行仔細考慮和進一步訓練。
訓練詳情
我們的模型訓練全面而多樣:
- 詞彙擴展:
我們根據韓語網絡語料庫中的出現頻率,精心挑選了 8960 個韓語標記。這個過程涉及多輪分詞器訓練、手動篩選和標記頻率分析,確保為我們的模型構建豐富且相關的詞彙。
- 初始分詞器訓練:我們在韓語網絡語料庫上訓練了一箇中間分詞器,詞彙量為 40000 個標記。
- 提取新的韓語標記:從中間分詞器中,我們識別出所有不在原始 SOLAR 分詞器中的韓語標記。
- 手動構建分詞器:然後,我們專注於這些新的韓語標記,構建目標分詞器。
- 頻率分析:使用目標分詞器,我們處理了一個 100GB 的韓語語料庫,統計每個標記的出現頻率。
- 標記列表優化:我們移除了出現次數少於 6000 次的標記,確保為後續模型訓練保留足夠的標記。
- 單字符添加:統計缺失的韓語單字符,並將出現次數超過 6000 次的字符添加到目標分詞器中。
- 迭代優化:我們重複步驟 2 到 6,直到沒有需要刪除或添加的標記。
- 新標記訓練偏差:我們的訓練數據偏向於包含更多帶有新標記的文本,以實現有效學習。
這種嚴格的方法確保了模型擁有全面且上下文豐富的韓語詞彙。
📄 許可證
本模型採用 Apache-2.0 許可證。
📚 引用
@misc{kim2024efficient,
title={Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models},
author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
year={2024},
eprint={2402.14714},
archivePrefix={arXiv},
primaryClass={cs.CL}
}