🚀 ktdsbaseLM v0.11
ktdsbaseLM v0.11 是一款基於 OpenChat 3.5 的模型,旨在理解韓語及韓國多元文化。它利用自主製作的韓語數據,反映韓國社會的價值和文化,可應用於文本生成、對話推理等多種自然語言處理任務。
🚀 快速開始
模型信息
屬性 |
詳情 |
模型類型 |
KTDSbaseLM v0.11 是基於 OpenChat 3.5 模型,以 SFT 方式對 Mistral 7B 進行微調的模型。 |
訓練數據 |
基於自研的 3.6GB 數據進行訓練,涵蓋 233 萬條 QnA、摘要、分類等數據。 |
模型功能
KTDSbaseLM v0.11 主要功能包括文本生成、對話推理、文檔摘要、問答、情感分析等自然語言處理相關任務,可應用於法律、財務、科學、教育、商業、文化研究等多個領域。
✨ 主要特性
- 文化理解:設計用於理解韓語和韓國的各種文化背景,利用自主製作的 135 個領域的韓語數據,反映韓國社會的價值和文化。
- 高性能架構:基於 Mistral 7B 模型,擁有 70 億個參數,採用 OpenChat 3.5 作為基礎模型,通過 SFT 方式進行訓練,具有輕量級結構,保證了快速推理速度和內存效率。
📦 安裝指南
文檔未提供具體安裝步驟,暫不展示。
💻 使用示例
基礎用法
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F
import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from peft import (
LoraConfig,
get_peft_model,
set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast
device = 'auto'
model = ''
model = AutoModelForCausalLM.from_pretrained(
model,
quantization_config=bnb_config,
device_map=device)
tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
高級用法
文檔未提供高級用法代碼,暫不展示。
📚 詳細文檔
模型說明
KTDSbaseLM v0.11 是基於 OpenChat 3.5 模型,以 SFT 方式對 Mistral 7B 進行微調的模型。它旨在理解韓語和韓國的各種文化背景,利用自主製作的 135 個領域的韓語數據,反映韓國社會的價值和文化。
訓練數據
- 數據規模:基於自研的 3.6GB 數據進行訓練,涵蓋 233 萬條 QnA、摘要、分類等數據。
- 數據領域:其中 133 萬條為 53 個領域的選擇題,包括韓國曆史、社會、財務、法律、稅務、數學、生物、物理、化學等;130 萬條主觀題涉及韓國曆史、財務、法律、稅務、數學等 38 個領域。
- 訓練格式:訓練指令數據集格式為
{"prompt": "prompt text", "completion": "ideal generated text"}
。
使用案例
- 教育領域:對歷史、數學、科學等各種學習資料進行問答和解釋生成。
- 商業領域:提供法律、財務、稅務相關問題的答案和文檔摘要。
- 研究和文化領域:進行符合韓國社會和文化的自然語言處理任務、情感分析、文檔生成和翻譯。
- 客戶服務領域:生成與用戶的對話並提供個性化響應。
模型侷限性
- 語言和文化侷限性:由於該模型專門針對韓語和韓國文化,在處理特定領域(如最新國際資料、專業領域)的數據時,可能因數據不足而導致對其他語言或文化的響應準確性下降。
- 推理能力侷限性:在處理需要複雜邏輯思維的問題時,可能表現出有限的推理能力。
- 潛在的偏差問題:如果訓練數據中包含有偏差的數據,可能會生成有偏差的響應。
使用方法
使用時,可參考以下代碼示例:
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F
import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer
from datasets import load_dataset
from peft import (
LoraConfig,
get_peft_model,
set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast
device = 'auto'
model = ''
model = AutoModelForCausalLM.from_pretrained(
model,
quantization_config=bnb_config,
device_map=device)
tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)
input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
🔧 技術細節
KTDSBaseLM v0.11 基於 Mistral 7B 模型,擁有 70 億個參數。它採用 OpenChat 3.5 作為基礎模型,通過 SFT(監督微調)方式進行訓練,以實現對韓語和韓國文化的特定性能優化。Mistral 7B 的輕量級結構確保了快速推理速度和內存效率,適用於各種自然語言處理任務。
📄 許可證
本模型使用的許可證為 apache - 2.0。
⚠️ 重要提示
KTDSbaseLM v0.11 專門針對韓語和韓國文化,在處理特定領域(如最新國際資料、專業領域)的數據時,可能因數據不足而導致對其他語言或文化的響應準確性下降。
💡 使用建議
在使用該模型時,儘量提供與韓語和韓國文化相關的輸入,以獲得更準確的輸出。同時,對於複雜邏輯問題,可結合人工判斷進行結果評估。