🚀 韓國語特化語言模型
本模型以LlaMA3.1為基礎模型,利用自主製作的53個領域的韓國語數據進行訓練,旨在理解韓國社會價值和文化,適用於韓語及韓國多元文化場景。
🚀 快速開始
使用以下代碼示例可以快速啟動模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
model = AutoModel.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
✨ 主要特性
- 文化理解:基於LlaMA3.1模型,採用SFT方式微調,能夠理解韓語和韓國的各種文化背景。
- 功能豐富:支持文本生成、對話推理、文檔摘要、問答、情感分析等多種自然語言處理任務。
- 應用廣泛:可應用於法律、金融、科學、教育、商業、文化研究等多個領域。
- 高性能架構:基於LlaMA3.1 8B模型,擁有80億參數,輕量化結構保證了快速推理速度和內存效率。
📦 安裝指南
文檔未提供安裝步驟,可參考transformers
庫的官方安裝指南進行安裝。
💻 使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
model = AutoModel.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
高級用法
文檔未提供高級用法示例,可根據具體需求調整模型參數,如max_length
、temperature
、do_sample
、repetition_penalty
等。
📚 詳細文檔
模型說明
該模型以LlaMA3.1為基礎模型,通過SFT方式進行微調,旨在理解韓語和韓國的各種文化背景。模型使用了自主製作的53個領域的韓語數據,反映了韓國社會的價值和文化。
模型架構
基於LlaMA3.1 8B模型,擁有80億參數,輕量化結構保證了快速推理速度和內存效率。該架構在文本生成、問答、文檔摘要、情感分析等多種任務中表現出色。
訓練數據
- 模型基於自主開發的3.6GB數據進行訓練,包含233萬個QnA、摘要、分類等數據。
- 其中133萬個是53個領域的選擇題,包括韓國曆史、社會、金融、法律、稅務、數學、生物、物理、化學等。
- 130萬個主觀題涵蓋了38個領域,如韓國曆史、金融、法律、稅務、數學等。
- 訓練數據中包含了理解韓國社會價值和人類情感的內容,並能夠根據指示進行輸出。
訓練指令數據集格式
{"prompt": "prompt text", "completion": "ideal generated text"}
使用案例
- 教育領域:為歷史、數學、科學等各種學習資料提供問答和解釋。
- 商業領域:回答法律、金融、稅務相關問題,並提供文檔摘要。
- 研究和文化領域:進行符合韓國社會和文化的自然語言處理任務,如情感分析、文檔生成和翻譯。
- 客戶服務領域:生成與用戶的對話,並提供個性化響應。
侷限性
- 該模型專門針對韓語和韓國文化,由於特定領域(如最新國際資料、專業領域)的數據不足,對其他語言或文化的響應準確性可能較低。
- 對於需要複雜邏輯思維的問題,模型的推理能力可能有限。
- 如果訓練數據中包含有偏差的數據,可能會生成有偏差的響應。
🔧 技術細節
模型基於LlaMA3.1 8B模型,採用SFT方式進行微調,使用了自主開發的3.6GB韓語數據進行訓練。訓練數據涵蓋了53個領域的選擇題和38個領域的主觀題,通過Chain of Thought方式進行學習。
📄 許可證
本模型採用apache-2.0
許可證。
📋 模型信息
屬性 |
詳情 |
基礎模型 |
meta-llama/Llama-3.1-8B-Instruct |
訓練數據集 |
AIDX-ktds/ko_leaderboard |
語言 |
韓語 |
許可證 |
apache-2.0 |
評估指標 |
準確率 |
任務類型 |
文本生成 |
標籤 |
ko_leaderboard |