🚀 EEVE-Korean-10.8B-v1.0
本項目是基於upstage/SOLAR-10.7B-v1.0
模型進行韓語詞彙擴展的版本,在多種韓語網絡爬取數據集上進行了微調,增強了模型對韓語的理解能力。

🚀 快速開始
如果你對大語言模型領域充滿熱情,希望交流知識和見解,歡迎加入我們的Discord服務器。需要注意的是,該服務器主要使用韓語交流。大語言模型領域發展迅速,如果不積極分享,我們的知識很快就會過時。讓我們共同合作,產生更大的影響!點擊鏈接加入:Discord Link。
✨ 主要特性
團隊介紹
研究人員 |
工程師 |
產品管理 |
UX設計 |
Myeongho Jeong Seungduk Kim Seungtaek Choi |
Geon Kim Rifqi Alfi Sanghoon Han Suhyun Kang |
Bokyung Huh |
Eunsue Choi |
模型介紹
本模型是upstage/SOLAR-10.7B-v1.0的韓語詞彙擴展版本,專門在HuggingFace上的各種韓語網絡爬取數據集上進行了微調。我們的方法是通過預訓練新標記的嵌入,並在保留基礎模型原始參數的同時,對已有標記的lm_head
嵌入進行部分微調,來擴展模型對韓語的理解。
技術細節
為了將基礎模型從英語適配到韓語,我們使用了基於子詞的嵌入方法,並採用了一個涉及參數凍結的七階段訓練過程。這種方法從輸入嵌入逐步訓練到完整參數,有效地擴展了模型的詞彙表以包含韓語。我們的方法通過精心整合新的語言標記,專注於因果語言建模預訓練,增強了模型的跨語言適用性。我們利用在英語上訓練的基礎模型的固有能力,有效地將知識和推理遷移到韓語,優化了適配過程。
更多詳細信息,請參考我們的技術報告:Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models。
💻 使用示例
基礎用法
def freeze_partial_embedding_hook(grad):
grad[:number_of_old_tokens] = 0
return grad
for name, param in model.named_parameters():
if ("lm_head" in name or "embed_tokens" in name) and "original" not in name:
param.requires_grad = True
if "embed_tokens" in name:
param.register_hook(freeze_partial_embedding_hook)
else:
param.requires_grad = False
使用說明和限制
請注意,此模型未經過基於指令的微調訓練。雖然它在韓語任務中表現出色,但我們建議在特定應用中進行仔細考慮和進一步訓練。
訓練詳情
我們的模型訓練全面且多樣:
- 詞彙擴展:
我們根據韓語網絡語料庫中的詞頻,精心挑選了8,960個韓語標記。這個過程涉及多輪分詞器訓練、手動篩選和標記頻率分析,確保為我們的模型提供豐富且相關的詞彙表。
- 初始分詞器訓練:我們在韓語網絡語料庫上訓練了一箇中間分詞器,詞彙量為40,000個標記。
- 提取新的韓語標記:從中間分詞器中,我們識別出所有原始SOLAR分詞器中不存在的韓語標記。
- 手動構建分詞器:然後,我們專注於這些新的韓語標記,構建了目標分詞器。
- 頻率分析:使用目標分詞器,我們處理了一個100GB的韓語語料庫,以統計每個標記的頻率。
- 優化標記列表:我們移除了出現次數少於6,000次的標記,確保為後續模型訓練保留足夠的標記。
- 包含單字母字符:統計缺失的韓語單字母字符,並將出現次數超過6,000次的字符添加到目標分詞器中。
- 迭代優化:我們重複步驟2到6,直到沒有需要刪除或添加的標記。
- 偏向新標記的訓練:我們的訓練數據偏向包含更多帶有新標記的文本,以實現有效學習。
這種嚴格的方法確保了模型擁有全面且上下文豐富的韓語詞彙表。
📄 許可證
本項目採用Apache-2.0許可證。
📚 引用
@misc{kim2024efficient,
title={Efficient and Effective Vocabulary Expansion Towards Multilingual Large Language Models},
author={Seungduk Kim and Seungtaek Choi and Myeongho Jeong},
year={2024},
eprint={2402.14714},
archivePrefix={arXiv},
primaryClass={cs.CL}
}