ktdsbaseLM-v0.12開源韓語大模型 - 精準理解韓文化助力自然語言處理

首頁

Ktdsbaselm V0.12 Based On Openchat3.5

由AIDX-ktds開發

ktdsbaseLM v0.11 是基於 OpenChat 3.5 的韓語大語言模型，專注於理解韓語及韓國多元文化，適用於多種自然語言處理任務。

大型語言模型

Safetensors

韓語開源協議:Apache-2.0 #韓語文化理解 #韓國社會價值 #Mistral 7B微調

下載量 1,726

發布時間 : 10/3/2024

模型概述

該模型利用自主製作的韓語數據，反映韓國社會的價值和文化，可應用於文本生成、對話推理、文檔摘要、問答、情感分析等多種自然語言處理任務。

模型特點

文化理解

專門針對韓語和韓國文化設計，利用自主製作的135個領域的韓語數據，反映韓國社會的價值和文化。

高性能架構

基於 Mistral 7B 模型，擁有70億個參數，採用輕量級結構，保證了快速推理速度和內存效率。

多領域覆蓋

訓練數據涵蓋233萬條QnA、摘要、分類等數據，涉及韓國曆史、社會、財務、法律、稅務、數學、生物、物理、化學等多個領域。

模型能力

文本生成

對話推理

文檔摘要

問答系統

情感分析

多領域知識處理

使用案例

教育領域

學習資料問答

對歷史、數學、科學等各種學習資料進行問答和解釋生成。

商業領域

法律財務諮詢

提供法律、財務、稅務相關問題的答案和文檔摘要。

研究和文化領域

文化相關NLP任務

進行符合韓國社會和文化的自然語言處理任務、情感分析、文檔生成和翻譯。

客戶服務

個性化對話生成

生成與用戶的對話並提供個性化響應。

🚀 ktdsbaseLM v0.11

ktdsbaseLM v0.11 是一款基於 OpenChat 3.5 的模型，旨在理解韓語及韓國多元文化。它利用自主製作的韓語數據，反映韓國社會的價值和文化，可應用於文本生成、對話推理等多種自然語言處理任務。

🚀 快速開始

模型信息

屬性	詳情
模型類型	KTDSbaseLM v0.11 是基於 OpenChat 3.5 模型，以 SFT 方式對 Mistral 7B 進行微調的模型。
訓練數據	基於自研的 3.6GB 數據進行訓練，涵蓋 233 萬條 QnA、摘要、分類等數據。

模型功能

KTDSbaseLM v0.11 主要功能包括文本生成、對話推理、文檔摘要、問答、情感分析等自然語言處理相關任務，可應用於法律、財務、科學、教育、商業、文化研究等多個領域。

✨ 主要特性

文化理解：設計用於理解韓語和韓國的各種文化背景，利用自主製作的 135 個領域的韓語數據，反映韓國社會的價值和文化。
高性能架構：基於 Mistral 7B 模型，擁有 70 億個參數，採用 OpenChat 3.5 作為基礎模型，通過 SFT 方式進行訓練，具有輕量級結構，保證了快速推理速度和內存效率。

📦 安裝指南

文檔未提供具體安裝步驟，暫不展示。

💻 使用示例

基礎用法

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

高級用法

文檔未提供高級用法代碼，暫不展示。

📚 詳細文檔

模型說明

KTDSbaseLM v0.11 是基於 OpenChat 3.5 模型，以 SFT 方式對 Mistral 7B 進行微調的模型。它旨在理解韓語和韓國的各種文化背景，利用自主製作的 135 個領域的韓語數據，反映韓國社會的價值和文化。

訓練數據

數據規模：基於自研的 3.6GB 數據進行訓練，涵蓋 233 萬條 QnA、摘要、分類等數據。
數據領域：其中 133 萬條為 53 個領域的選擇題，包括韓國曆史、社會、財務、法律、稅務、數學、生物、物理、化學等；130 萬條主觀題涉及韓國曆史、財務、法律、稅務、數學等 38 個領域。
訓練格式：訓練指令數據集格式為 {"prompt": "prompt text", "completion": "ideal generated text"}。

使用案例

教育領域：對歷史、數學、科學等各種學習資料進行問答和解釋生成。
商業領域：提供法律、財務、稅務相關問題的答案和文檔摘要。
研究和文化領域：進行符合韓國社會和文化的自然語言處理任務、情感分析、文檔生成和翻譯。
客戶服務領域：生成與用戶的對話並提供個性化響應。

模型侷限性

語言和文化侷限性：由於該模型專門針對韓語和韓國文化，在處理特定領域（如最新國際資料、專業領域）的數據時，可能因數據不足而導致對其他語言或文化的響應準確性下降。
推理能力侷限性：在處理需要複雜邏輯思維的問題時，可能表現出有限的推理能力。
潛在的偏差問題：如果訓練數據中包含有偏差的數據，可能會生成有偏差的響應。

使用方法

使用時，可參考以下代碼示例：

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

🔧 技術細節

KTDSBaseLM v0.11 基於 Mistral 7B 模型，擁有 70 億個參數。它採用 OpenChat 3.5 作為基礎模型，通過 SFT（監督微調）方式進行訓練，以實現對韓語和韓國文化的特定性能優化。Mistral 7B 的輕量級結構確保了快速推理速度和內存效率，適用於各種自然語言處理任務。