ktdsbaseLM-v0.12オープンソース韓国語大規模言語モデル - 韓国文化を正確に理解し、自然言語処理をサポート

ホーム

Ktdsbaselm V0.12 Based On Openchat3.5

AIDX-ktdsによって開発

ktdsbaseLM v0.11はOpenChat 3.5に基づく韓国語大規模言語モデルで、韓国語と韓国の多元文化の理解に特化しており、様々な自然言語処理タスクに適しています。

大規模言語モデル

Safetensors

韓国語オープンソースライセンス:Apache-2.0 #韓国語文化の理解 #韓国社会の価値 #Mistral 7Bの微調整

ダウンロード数 1,726

リリース時間 : 10/3/2024

モデル概要

このモデルは独自に制作した韓国語データを利用し、韓国社会の価値と文化を反映しており、テキスト生成、対話推論、文書要約、質問応答、感情分析などの様々な自然言語処理タスクに適用できます。

モデル特徴

文化理解

韓国語と韓国文化に特化して設計され、独自に制作した135の領域の韓国語データを利用し、韓国社会の価値と文化を反映しています。

高性能アーキテクチャ

Mistral 7Bモデルをベースに、70億個のパラメータを持ち、軽量構造を採用しており、高速な推論速度とメモリ効率を保証しています。

多領域カバー

訓練データは233万件のQnA、要約、分類などのデータを含み、韓国の歴史、社会、財務、法律、税務、数学、生物学、物理学、化学などの複数の領域に及んでいます。

モデル能力

テキスト生成

対話推論

文書要約

質問応答システム

感情分析

多領域知識処理

使用事例

教育分野

学習資料の質問応答

歴史、数学、科学などの様々な学習資料に対する質問応答と説明生成を行います。

ビジネス分野

法律・財務相談

法律、財務、税務に関連する問題の回答と文書要約を提供します。

研究と文化分野

文化関連のNLPタスク

韓国社会と文化に合った自然言語処理タスク、感情分析、文書生成、翻訳を行います。

カスタマーサービス

個別化対話生成

ユーザーとの対話を生成し、個別化された応答を提供します。

🚀 ktdsbaseLM v0.11

ktdsbaseLM v0.11は、openchat3.5をFoundationモデルとして、韓国語や韓国の様々な文化に適用できるように開発されたモデルです。自社で制作した53領域の韓国語データを活用し、韓国社会の価値や文化を理解することができます。

🚀 クイックスタート

ktdsbaseLM v0.11を使用するには、以下の手順に従ってください。

import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

✨ 主な機能

モデル名及び主な機能：KTDSbaseLM v0.11は、OpenChat 3.5モデルをベースに、Mistral 7B / openchat3.5モデルをSFT方式でファインチューニングしたモデルです。韓国語や韓国の様々な文化的文脈を理解するように設計されており、自社で制作した135領域の韓国語データを活用して、韓国社会の価値や文化を反映しています。主な機能として、テキスト生成、会話推論、文書要約、質問応答、感情分析、自然言語処理関連の様々なタスクをサポートしており、法務、財務、科学、教育、ビジネス、文化研究などの様々な分野で応用することができます。
モデルアーキテクチャ：KTDSBaseLM v0.11は、Mistral 7Bモデルをベースに、パラメータ数が70億個（7B）の高性能言語モデルです。このモデルはOpenChat 3.5をFoundationモデルとして、SFT（教師付き微調整）方式を通じて、韓国語や韓国文化に特化した性能を発揮するように訓練されています。Mistral 7Bの軽量構造は、高速な推論速度とメモリ効率を保証し、テキスト生成、質問応答、文書要約、感情分析などの様々な自然言語処理タスクに最適化されています。

📦 インストール

インストールに関する具体的な手順は提供されていません。

💻 使用例

基本的な使用法

# 基本的な使用方法のコード
import os
import os.path as osp
import sys
import fire
import json
from typing import List, Union
import pandas as pd
import torch
from torch.nn import functional as F

import transformers
from transformers import TrainerCallback, TrainingArguments, TrainerState, TrainerControl, BitsAndBytesConfig
from transformers.trainer_utils import PREFIX_CHECKPOINT_DIR
from transformers import LlamaForCausalLM, LlamaTokenizer
from transformers import AutoModelForCausalLM, AutoTokenizer

from datasets import load_dataset

from peft import (
    LoraConfig,
    get_peft_model,
    set_peft_model_state_dict
)
from peft import PeftModel
import re
import ast

device = 'auto' #@param {type: "string"}
model = '' #@param {type: "string"}
model = AutoModelForCausalLM.from_pretrained(
  model,
  quantization_config=bnb_config,
  #load_in_4bit=True, # Quantization Load
  device_map=device)

tokenizer = AutoTokenizer.from_pretrained(base_LLM_model)

input_text = "안녕하세요."
inputs = tokenizer(input_text, return_tensors="pt")
inputs = inputs.to("cuda:0")

with torch.no_grad():
    outputs = model.generate(**inputs, max_length=1024)

result = tokenizer.decode(outputs[0], skip_special_tokens=True)

高度な使用法

高度な使用法に関する具体的なコードは提供されていません。

📚 ドキュメント

学習データ

ktdsbaseLM v0.11は、自社で開発した合計3.6GBのデータを基に訓練されました。合計233万件のQ&A、要約、分類などのデータが含まれており、そのうち133万件は53領域の選択問題で構成されています。これらの領域には、韓国史、社会、財務、法務、税務、数学、生物学、物理学、化学などが含まれており、Chain of Thought方式で訓練されています。また、130万件の主観的な問題は、韓国史、財務、法務、税務、数学など38領域にわたって訓練されています。学習データの中には、韓国社会の価値や人間の感情を理解し、指示された内容に応じて出力できるデータが含まれています。

学習命令データセット形式：

{"prompt": "prompt text", "completion": "ideal generated text"}

使用事例

ktdsbaseLM v0.12は、様々な応用分野で使用できます。例えば：

教育分野：歴史、数学、科学などの様々な学習資料に関する質問応答や説明生成。
ビジネス：法務、財務、税務関連の質問に対する回答提供や文書要約。
研究及び文化：韓国社会や文化に合わせた自然言語処理タスク、感情分析、文書生成、翻訳。
カスタマーサービス：ユーザーとの会話生成やカスタマイズされた応答提供。
このモデルは、様々な自然言語処理タスクで高い活用度を持っています。

限界

ktdsBaseLM v0.12は、韓国語や韓国文化に特化していますが、特定の領域（例：最新の国際資料、専門分野）のデータが不足しているため、他の言語や文化に対する応答の正確性が低下する可能性があります。また、複雑な論理的思考を必要とする問題に対しては、推論能力が制限される可能性があり、偏ったデータが含まれている場合、偏った応答が生成される可能性もあります。