🚀 AIDX-ktds/ktdsbaseLM-v0.14-onbased-llama3.1
該模型基於LlaMA3.1,通過微調適配韓語及韓國文化,利用53個領域的韓語數據,能理解韓國社會價值與文化,可用於文本生成、問答等多種自然語言處理任務。
🚀 快速開始
使用該模型前,請確保你已經安裝了transformers
庫。以下是一個簡單的使用示例:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("AIDX-ktds/ktdsbaseLM-v0.14-onbased-llama3.1")
model = AutoModel.from_pretrained("AIDX-ktds/ktdsbaseLM-v0.14-onbased-llama3.1")
input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
✨ 主要特性
- 文化適配:基於LlaMA3.1模型,採用SFT方式微調,設計目的是理解韓語和韓國的各種文化背景,利用自制的53個領域的韓語數據,反映韓國社會的價值和文化。
- 功能豐富:支持文本生成、對話推理、文檔摘要、問答、情感分析等多種自然語言處理相關任務,可應用於法律、財務、科學、教育、商業、文化研究等多個領域。
- 高性能架構:以LlaMA3.1 8B模型為基礎,擁有80億個參數,通過SFT方式針對韓語和韓國文化進行訓練,輕量級結構保證了快速推理速度和內存效率,適合各種自然語言處理任務。
📦 安裝指南
安裝所需的庫:
pip install transformers torch
💻 使用示例
基礎用法
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("AIDX-ktds/ktdsbaseLM-v0.14-onbased-llama3.1")
model = AutoModel.from_pretrained("AIDX-ktds/ktdsbaseLM-v0.14-onbased-llama3.1")
input_text = "請輸入你的問題"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
📚 詳細文檔
模型說明
該模型以LlaMA3.1為基礎模型,通過SFT方式微調,旨在理解韓語和韓國的各種文化背景。它使用了自制的53個領域的韓語數據,以反映韓國社會的價值和文化。主要功能包括文本生成、對話推理、文檔摘要、問答、情感分析等多種自然語言處理相關任務,可應用於多個領域。
訓練數據
- 該模型基於自行開發的總計3.6GB的數據進行訓練,包含233萬個問答、摘要、分類等數據。其中,133萬個是53個領域的客觀問題,涵蓋韓國曆史、社會、財務、法律、稅務、數學、生物、物理、化學等領域,採用Chain of Thought方式訓練。另外,130萬個主觀問題在38個領域(如韓國曆史、財務、法律、稅務、數學等)進行了訓練。訓練數據中包含了理解韓國社會價值和人類情感並根據指示輸出的內容。
- 訓練指令數據集格式:
{"prompt": "prompt text", "completion": "ideal generated text"}
使用案例
- 教育領域:對歷史、數學、科學等各種學習資料進行問答和解釋生成。
- 商業領域:提供法律、財務、稅務相關問題的答案,並進行文檔摘要。
- 研究和文化領域:進行符合韓國社會和文化的自然語言處理任務、情感分析、文檔生成和翻譯。
- 客戶服務領域:生成與用戶的對話並提供個性化響應。
模型侷限性
- 該模型雖然針對韓語和韓國文化進行了優化,但由於特定領域(如最新國際資料、專業領域)的數據不足,對其他語言或文化的響應準確性可能較低。
- 在處理需要複雜邏輯思維的問題時,可能表現出有限的推理能力。
- 如果訓練數據中包含有偏差的數據,可能會生成有偏差的響應。
🔧 技術細節
該模型基於LlaMA3.1 8B模型,參數數量為80億個。通過SFT(監督微調)方式,針對韓語和韓國文化進行了專門訓練,輕量級的架構保證了快速的推理速度和高效的內存使用,適合各種自然語言處理任務。
📄 許可證
本項目採用apache-2.0
許可證。
📋 模型信息
屬性 |
詳情 |
基礎模型 |
meta-llama/Llama-3.1-8B-Instruct |
訓練數據集 |
AIDX-ktds/ko_leaderboard |
語言 |
韓語 |
許可證 |
apache-2.0 |
評估指標 |
準確率 |
任務類型 |
文本生成 |
標籤 |
ko, leaderboard, ktds, llama3.1 |