ktdsbaseLM-v0.12开源韩语大模型 - 精准理解韩文化助力自然语言处理

首页

Ktdsbaselm V0.12 Based On Openchat3.5

由 AIDX-ktds 开发

ktdsbaseLM v0.11 是基于 OpenChat 3.5 的韩语大语言模型，专注于理解韩语及韩国多元文化，适用于多种自然语言处理任务。

大型语言模型

Safetensors

韩语开源协议:Apache-2.0 #韩语文化理解 #韩国社会价值 #Mistral 7B微调

下载量 1,726

发布时间 : 10/3/2024

模型简介

该模型利用自主制作的韩语数据，反映韩国社会的价值和文化，可应用于文本生成、对话推理、文档摘要、问答、情感分析等多种自然语言处理任务。

模型特点

文化理解

专门针对韩语和韩国文化设计，利用自主制作的135个领域的韩语数据，反映韩国社会的价值和文化。

高性能架构

基于 Mistral 7B 模型，拥有70亿个参数，采用轻量级结构，保证了快速推理速度和内存效率。

多领域覆盖

训练数据涵盖233万条QnA、摘要、分类等数据，涉及韩国历史、社会、财务、法律、税务、数学、生物、物理、化学等多个领域。

模型能力

文本生成

对话推理

文档摘要

问答系统

情感分析

多领域知识处理

使用案例

教育领域

学习资料问答

对历史、数学、科学等各种学习资料进行问答和解释生成。

商业领域

法律财务咨询

提供法律、财务、税务相关问题的答案和文档摘要。

研究和文化领域

文化相关NLP任务

进行符合韩国社会和文化的自然语言处理任务、情感分析、文档生成和翻译。

客户服务

个性化对话生成

生成与用户的对话并提供个性化响应。

🚀 ktdsbaseLM v0.11

ktdsbaseLM v0.11 是一款基于 OpenChat 3.5 的模型，旨在理解韩语及韩国多元文化。它利用自主制作的韩语数据，反映韩国社会的价值和文化，可应用于文本生成、对话推理等多种自然语言处理任务。

🚀 快速开始

模型信息

属性	详情
模型类型	KTDSbaseLM v0.11 是基于 OpenChat 3.5 模型，以 SFT 方式对 Mistral 7B 进行微调的模型。
训练数据	基于自研的 3.6GB 数据进行训练，涵盖 233 万条 QnA、摘要、分类等数据。

模型功能

KTDSbaseLM v0.11 主要功能包括文本生成、对话推理、文档摘要、问答、情感分析等自然语言处理相关任务，可应用于法律、财务、科学、教育、商业、文化研究等多个领域。

✨ 主要特性

文化理解：设计用于理解韩语和韩国的各种文化背景，利用自主制作的 135 个领域的韩语数据，反映韩国社会的价值和文化。
高性能架构：基于 Mistral 7B 模型，拥有 70 亿个参数，采用 OpenChat 3.5 作为基础模型，通过 SFT 方式进行训练，具有轻量级结构，保证了快速推理速度和内存效率。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

基础用法

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

高级用法

文档未提供高级用法代码，暂不展示。

📚 详细文档

模型说明

KTDSbaseLM v0.11 是基于 OpenChat 3.5 模型，以 SFT 方式对 Mistral 7B 进行微调的模型。它旨在理解韩语和韩国的各种文化背景，利用自主制作的 135 个领域的韩语数据，反映韩国社会的价值和文化。

训练数据

数据规模：基于自研的 3.6GB 数据进行训练，涵盖 233 万条 QnA、摘要、分类等数据。
数据领域：其中 133 万条为 53 个领域的选择题，包括韩国历史、社会、财务、法律、税务、数学、生物、物理、化学等；130 万条主观题涉及韩国历史、财务、法律、税务、数学等 38 个领域。
训练格式：训练指令数据集格式为 {"prompt": "prompt text", "completion": "ideal generated text"}。

使用案例

教育领域：对历史、数学、科学等各种学习资料进行问答和解释生成。
商业领域：提供法律、财务、税务相关问题的答案和文档摘要。
研究和文化领域：进行符合韩国社会和文化的自然语言处理任务、情感分析、文档生成和翻译。
客户服务领域：生成与用户的对话并提供个性化响应。

模型局限性

语言和文化局限性：由于该模型专门针对韩语和韩国文化，在处理特定领域（如最新国际资料、专业领域）的数据时，可能因数据不足而导致对其他语言或文化的响应准确性下降。
推理能力局限性：在处理需要复杂逻辑思维的问题时，可能表现出有限的推理能力。
潜在的偏差问题：如果训练数据中包含有偏差的数据，可能会生成有偏差的响应。

使用方法

使用时，可参考以下代码示例：

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

🔧 技术细节

KTDSBaseLM v0.11 基于 Mistral 7B 模型，拥有 70 亿个参数。它采用 OpenChat 3.5 作为基础模型，通过 SFT（监督微调）方式进行训练，以实现对韩语和韩国文化的特定性能优化。Mistral 7B 的轻量级结构确保了快速推理速度和内存效率，适用于各种自然语言处理任务。