🚀 韩国语特化语言模型
本模型以LlaMA3.1为基础模型,利用自主制作的53个领域的韩国语数据进行训练,旨在理解韩国社会价值和文化,适用于韩语及韩国多元文化场景。
🚀 快速开始
使用以下代码示例可以快速启动模型:
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
model = AutoModel.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
✨ 主要特性
- 文化理解:基于LlaMA3.1模型,采用SFT方式微调,能够理解韩语和韩国的各种文化背景。
- 功能丰富:支持文本生成、对话推理、文档摘要、问答、情感分析等多种自然语言处理任务。
- 应用广泛:可应用于法律、金融、科学、教育、商业、文化研究等多个领域。
- 高性能架构:基于LlaMA3.1 8B模型,拥有80亿参数,轻量化结构保证了快速推理速度和内存效率。
📦 安装指南
文档未提供安装步骤,可参考transformers
库的官方安装指南进行安装。
💻 使用示例
基础用法
from transformers import AutoModel, AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
model = AutoModel.from_pretrained("SEOKDONG/llama3.0_korean_v1.0_sft")
input_text = """ 「국민건강보험법」제44조, 「국민건강보험법 시행령」제19조,「약관의 규제에 관한 법률」제5조, 「상법」제54조 참조 판단 해줘""" + " 답변:"
inputs = tokenizer(input_text, return_tensors="pt")
with torch.no_grad():
outputs = model.generate(**inputs, max_length=1024, temperature=0.5, do_sample=True, repetition_penalty=1.15)
result = tokenizer.decode(outputs[0], skip_special_tokens=True)
print(result)
高级用法
文档未提供高级用法示例,可根据具体需求调整模型参数,如max_length
、temperature
、do_sample
、repetition_penalty
等。
📚 详细文档
模型说明
该模型以LlaMA3.1为基础模型,通过SFT方式进行微调,旨在理解韩语和韩国的各种文化背景。模型使用了自主制作的53个领域的韩语数据,反映了韩国社会的价值和文化。
模型架构
基于LlaMA3.1 8B模型,拥有80亿参数,轻量化结构保证了快速推理速度和内存效率。该架构在文本生成、问答、文档摘要、情感分析等多种任务中表现出色。
训练数据
- 模型基于自主开发的3.6GB数据进行训练,包含233万个QnA、摘要、分类等数据。
- 其中133万个是53个领域的选择题,包括韩国历史、社会、金融、法律、税务、数学、生物、物理、化学等。
- 130万个主观题涵盖了38个领域,如韩国历史、金融、法律、税务、数学等。
- 训练数据中包含了理解韩国社会价值和人类情感的内容,并能够根据指示进行输出。
训练指令数据集格式
{"prompt": "prompt text", "completion": "ideal generated text"}
使用案例
- 教育领域:为历史、数学、科学等各种学习资料提供问答和解释。
- 商业领域:回答法律、金融、税务相关问题,并提供文档摘要。
- 研究和文化领域:进行符合韩国社会和文化的自然语言处理任务,如情感分析、文档生成和翻译。
- 客户服务领域:生成与用户的对话,并提供个性化响应。
局限性
- 该模型专门针对韩语和韩国文化,由于特定领域(如最新国际资料、专业领域)的数据不足,对其他语言或文化的响应准确性可能较低。
- 对于需要复杂逻辑思维的问题,模型的推理能力可能有限。
- 如果训练数据中包含有偏差的数据,可能会生成有偏差的响应。
🔧 技术细节
模型基于LlaMA3.1 8B模型,采用SFT方式进行微调,使用了自主开发的3.6GB韩语数据进行训练。训练数据涵盖了53个领域的选择题和38个领域的主观题,通过Chain of Thought方式进行学习。
📄 许可证
本模型采用apache-2.0
许可证。
📋 模型信息
属性 |
详情 |
基础模型 |
meta-llama/Llama-3.1-8B-Instruct |
训练数据集 |
AIDX-ktds/ko_leaderboard |
语言 |
韩语 |
许可证 |
apache-2.0 |
评估指标 |
准确率 |
任务类型 |
文本生成 |
标签 |
ko_leaderboard |