KoreanLM开源语言模型 - 针对韩语特性优化，提供高效分词方案

首页

Koreanlm

由 quantumaikr 开发

KoreanLM是专为韩语优化的开源语言模型项目，针对韩语语法和词汇特性设计，提供高效分词方案

大型语言模型

Transformers

支持多种语言#韩语优化 #高效分词 #多语言生成

下载量 59

发布时间 : 5/3/2023

模型简介

专注于解决韩语在现有语言模型中训练不足和分词效率问题，通过融合韩语特性构建的生成式语言模型

模型特点

韩语专属优化

针对韩语语法结构和词汇特性进行专门设计，提升理解和生成准确性

高效分词方案

采用新型韩语分词技术，显著提升文本处理效率

轻量化设计

优化模型规模便于企业微调应用，解决大模型使用门槛问题

模型能力

韩语文本生成

韩英双语处理

上下文理解

使用案例

自然语言处理

韩语内容创作

自动生成符合韩语表达习惯的文本内容

跨语言应用

处理韩英双语混合的文本场景

🚀 KoreanLM：韩语语言模型项目

KoreanLM 是一个旨在开发韩语语言模型的开源项目。当前，大部分语言模型都聚焦于英语，导致韩语的学习相对不足，并且在分词过程中存在效率低下的情况。为了解决这些问题，提供专门针对韩语优化的语言模型，我们启动了 KoreanLM 项目。

📦 安装指南

KoreanLM 通过 GitHub 仓库进行分发。若要使用该项目，可按以下步骤进行安装：

git clone https://github.com/quantumaikr/KoreanLM.git
cd KoreanLM
pip install -r requirements.txt

💻 使用示例

基础用法

以下是通过 transformers 库加载模型和分词器的示例：

import transformers
model = transformers.AutoModelForCausalLM.from_pretrained("quantumaikr/KoreanLM")
tokenizer = transformers.AutoTokenizer.from_pretrained("quantumaikr/KoreanLM")

🔧 训练

全量参数微调

torchrun --nproc_per_node=4 --master_port=1004 train.py \
    --model_name_or_path quantumaikr/KoreanLM \
    --data_path korean_data.json \    
    --num_train_epochs 3 \
    --cache_dir './data' \
    --bf16 True \
    --tf32 True \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 8 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 500 \
    --save_total_limit 1 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \
    --lr_scheduler_type "cosine" \
    --logging_steps 1 \
    --fsdp "full_shard auto_wrap" \
    --fsdp_transformer_layer_cls_to_wrap 'OPTDecoderLayer' \

pip install deepspeed
torchrun --nproc_per_node=4 --master_port=1004 train.py \
    --deepspeed "./deepspeed.json" \
    --model_name_or_path quantumaikr/KoreanLM \
    --data_path korean_data.json \    
    --num_train_epochs 3 \
    --cache_dir './data' \
    --bf16 True \
    --tf32 True \
    --per_device_train_batch_size 4 \
    --per_device_eval_batch_size 4 \
    --gradient_accumulation_steps 8 \
    --evaluation_strategy "no" \
    --save_strategy "steps" \
    --save_steps 2000 \
    --save_total_limit 1 \
    --learning_rate 2e-5 \
    --weight_decay 0. \
    --warmup_ratio 0.03 \

LoRA 微调

python finetune-lora.py \
    --base_model 'quantumaikr/KoreanLM' \
    --data_path './korean_data.json' \
    --output_dir './KoreanLM-LoRA' \
    --cache_dir './data'

📈 推理

python generate.py \
    --load_8bit  \
    --share_gradio \
    --base_model 'quantumaikr/KoreanLM'  \
    --lora_weights 'quantumaikr/KoreanLM-LoRA' \
    --cache_dir './data'

📚 详细文档

项目目标

开发韩语专用语言模型：开发能够更准确理解和生成韩语的语言模型，反映韩语的语法、词汇和文化特性。
引入高效分词方式：引入在韩语文本分词过程中能够进行高效且准确分析的新分词方式，提高语言模型的性能。
改善大语言模型的可用性：解决当前大型语言模型企业难以对自有数据进行微调的问题，通过调整韩语语言模型的大小来提高可用性，使其更易于应用于自然语言处理任务。