🚀 ktdsbaseLM v0.11
ktdsbaseLM v0.11 是一款基于 OpenChat 3.5 的模型,旨在理解韩语及韩国多元文化。它利用自主制作的韩语数据,反映韩国社会的价值和文化,可应用于文本生成、对话推理等多种自然语言处理任务。
🚀 快速开始
模型信息
属性 |
详情 |
模型类型 |
KTDSbaseLM v0.11 是基于 OpenChat 3.5 模型,以 SFT 方式对 Mistral 7B 进行微调的模型。 |
训练数据 |
基于自研的 3.6GB 数据进行训练,涵盖 233 万条 QnA、摘要、分类等数据。 |
模型功能
KTDSbaseLM v0.11 主要功能包括文本生成、对话推理、文档摘要、问答、情感分析等自然语言处理相关任务,可应用于法律、财务、科学、教育、商业、文化研究等多个领域。
✨ 主要特性
- 文化理解:设计用于理解韩语和韩国的各种文化背景,利用自主制作的 135 个领域的韩语数据,反映韩国社会的价值和文化。
- 高性能架构:基于 Mistral 7B 模型,拥有 70 亿个参数,采用 OpenChat 3.5 作为基础模型,通过 SFT 方式进行训练,具有轻量级结构,保证了快速推理速度和内存效率。
📦 安装指南
文档未提供具体安装步骤,暂不展示。
💻 使用示例
基础用法
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F
import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from peft import (
LoraConfig,
get_peft_model,
set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast
device = 'auto'
model = ''
model = AutoModelForCausalLM.from_pretrained(
model,
quantization_config=bnb_config,
device_map=device)
tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
高级用法
文档未提供高级用法代码,暂不展示。
📚 详细文档
模型说明
KTDSbaseLM v0.11 是基于 OpenChat 3.5 模型,以 SFT 方式对 Mistral 7B 进行微调的模型。它旨在理解韩语和韩国的各种文化背景,利用自主制作的 135 个领域的韩语数据,反映韩国社会的价值和文化。
训练数据
- 数据规模:基于自研的 3.6GB 数据进行训练,涵盖 233 万条 QnA、摘要、分类等数据。
- 数据领域:其中 133 万条为 53 个领域的选择题,包括韩国历史、社会、财务、法律、税务、数学、生物、物理、化学等;130 万条主观题涉及韩国历史、财务、法律、税务、数学等 38 个领域。
- 训练格式:训练指令数据集格式为
{"prompt": "prompt text", "completion": "ideal generated text"}
。
使用案例
- 教育领域:对历史、数学、科学等各种学习资料进行问答和解释生成。
- 商业领域:提供法律、财务、税务相关问题的答案和文档摘要。
- 研究和文化领域:进行符合韩国社会和文化的自然语言处理任务、情感分析、文档生成和翻译。
- 客户服务领域:生成与用户的对话并提供个性化响应。
模型局限性
- 语言和文化局限性:由于该模型专门针对韩语和韩国文化,在处理特定领域(如最新国际资料、专业领域)的数据时,可能因数据不足而导致对其他语言或文化的响应准确性下降。
- 推理能力局限性:在处理需要复杂逻辑思维的问题时,可能表现出有限的推理能力。
- 潜在的偏差问题:如果训练数据中包含有偏差的数据,可能会生成有偏差的响应。
使用方法
使用时,可参考以下代码示例:
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F
import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from peft import (
LoraConfig,
get_peft_model,
set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast
device = 'auto'
model = ''
model = AutoModelForCausalLM.from_pretrained(
model,
quantization_config=bnb_config,
device_map=device)
tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
🔧 技术细节
KTDSBaseLM v0.11 基于 Mistral 7B 模型,拥有 70 亿个参数。它采用 OpenChat 3.5 作为基础模型,通过 SFT(监督微调)方式进行训练,以实现对韩语和韩国文化的特定性能优化。Mistral 7B 的轻量级结构确保了快速推理速度和内存效率,适用于各种自然语言处理任务。
📄 许可证
本模型使用的许可证为 apache - 2.0。
⚠️ 重要提示
KTDSbaseLM v0.11 专门针对韩语和韩国文化,在处理特定领域(如最新国际资料、专业领域)的数据时,可能因数据不足而导致对其他语言或文化的响应准确性下降。
💡 使用建议
在使用该模型时,尽量提供与韩语和韩国文化相关的输入,以获得更准确的输出。同时,对于复杂逻辑问题,可结合人工判断进行结果评估。