KoreanLM開源語言模型 - 針對韓語特性優化，提供高效分詞方案

首頁

Koreanlm

由quantumaikr開發

KoreanLM是專為韓語優化的開源語言模型項目，針對韓語語法和詞彙特性設計，提供高效分詞方案

大型語言模型

Transformers

支持多種語言#韓語優化 #高效分詞 #多語言生成

下載量 59

發布時間 : 5/3/2023

模型概述

專注於解決韓語在現有語言模型中訓練不足和分詞效率問題，通過融合韓語特性構建的生成式語言模型

模型特點

韓語專屬優化

針對韓語語法結構和詞彙特性進行專門設計，提升理解和生成準確性

高效分詞方案

採用新型韓語分詞技術，顯著提升文本處理效率

輕量化設計

優化模型規模便於企業微調應用，解決大模型使用門檻問題

模型能力

韓語文本生成

韓英雙語處理

上下文理解

使用案例

自然語言處理

韓語內容創作

自動生成符合韓語表達習慣的文本內容

跨語言應用

處理韓英雙語混合的文本場景

🚀 KoreanLM：韓語語言模型項目

KoreanLM 是一個旨在開發韓語語言模型的開源項目。當前，大部分語言模型都聚焦於英語，導致韓語的學習相對不足，並且在分詞過程中存在效率低下的情況。為了解決這些問題，提供專門針對韓語優化的語言模型，我們啟動了 KoreanLM 項目。

📦 安裝指南

KoreanLM 通過 GitHub 倉庫進行分發。若要使用該項目，可按以下步驟進行安裝：

git clone https://github.com/quantumaikr/KoreanLM.git
cd KoreanLM
pip install -r requirements.txt

💻 使用示例

基礎用法

以下是通過 transformers 庫加載模型和分詞器的示例：

import transformers
model = transformers.AutoModelForCausalLM.from_pretrained("quantumaikr/KoreanLM")
tokenizer = transformers.AutoTokenizer.from_pretrained("quantumaikr/KoreanLM")

🔧 訓練

全量參數微調

torchrun --nproc_per_node=4 --master_port=1004 train.py \
    --model_name_or_path quantumaikr/KoreanLM \
    --data_path korean_data.json \    
    --num_train_epochs 3 \
    --cache_dir './data' \
    --bf16 True \
    --tf32 True \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 8 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 500 \
    --save_total_limit 1 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'OPTDecoderLayer' \

pip install deepspeed
torchrun --nproc_per_node=4 --master_port=1004 train.py \
    --deepspeed "./deepspeed.json" \
    --model_name_or_path quantumaikr/KoreanLM \
    --data_path korean_data.json \    
    --num_train_epochs 3 \
    --cache_dir './data' \
    --bf16 True \
    --tf32 True \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 8 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 2000 \
    --save_total_limit 1 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \

LoRA 微調

python finetune-lora.py \
    --base_model 'quantumaikr/KoreanLM' \
    --data_path './korean_data.json' \
    --output_dir './KoreanLM-LoRA' \
    --cache_dir './data'

📈 推理

python generate.py \
    --load_8bit  \
    --share_gradio \
    --base_model 'quantumaikr/KoreanLM'  \
    --lora_weights 'quantumaikr/KoreanLM-LoRA' \
    --cache_dir './data'

📚 詳細文檔

項目目標

開發韓語專用語言模型：開發能夠更準確理解和生成韓語的語言模型，反映韓語的語法、詞彙和文化特性。
引入高效分詞方式：引入在韓語文本分詞過程中能夠進行高效且準確分析的新分詞方式，提高語言模型的性能。
改善大語言模型的可用性：解決當前大型語言模型企業難以對自有數據進行微調的問題，通過調整韓語語言模型的大小來提高可用性，使其更易於應用於自然語言處理任務。