Llama 3 Korean Bllossom 8B
Bllossom是基于Llama3的韩英双语语言模型,通过全面调优增强韩语能力,扩展了韩语词汇并优化了韩语上下文处理能力。
下载量 26.67k
发布时间 : 4/25/2024
模型简介
Bllossom是一个专注于韩英双语能力的语言模型,通过词汇扩展、指令调优和人类反馈优化,显著提升了韩语处理能力。
模型特点
韩语词汇扩展
扩展了超过3万个韩语词汇,增强了韩语表达能力
长上下文处理
相比Llama3,能处理约25%更长的韩语上下文
韩英知识连接
利用韩英平行语料库进行知识连接预训练
文化适应性
基于考虑韩国文化与语言的语言学家制作的数据进行微调
强化学习优化
应用了DPO(直接偏好优化)进行模型优化
模型能力
韩语文本生成
英语文本生成
双语问答
旅游路线规划
文化相关内容生成
使用案例
旅游助手
首尔旅游路线规划
为用户制定首尔著名旅游路线
生成包含景点、交通和时间的详细旅游计划
教育辅助
韩英双语学习
辅助韩语和英语学习者进行语言练习
提供准确的双语翻译和语言解释
🚀 Bllossom
Bllossom是一个基于开源LLama3的韩英双语语言模型,它加强了韩语和英语之间的知识联系,为用户提供更丰富的语言交互体验。

🚀 快速开始
Bllossom语言模型是基于开源LLama3的韩英双语语言模型,它加强了韩语和英语之间的知识联系。以下是使用该模型的快速指南:
安装依赖
pip install torch transformers==4.40.0 accelerate
Python代码示例(使用Pipeline)
import transformers
import torch
model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
pipeline.model.eval()
PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9
)
print(outputs[0]["generated_text"][len(prompt):])
Python代码示例(使用AutoModel)
import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = 'MLP-KTLim/llama-3-Korean-Bllossom-8B'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
model.eval()
PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9
)
print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))
✨ 主要特性
- 知识链接:通过额外训练,将韩语和英语知识进行链接。
- 词汇扩展:扩展韩语词汇,增强韩语表达能力。
- 指令微调:使用专门为韩语和韩国文化定制的指令跟随数据进行微调。
- 人类反馈:应用了DPO。
- 视觉 - 语言对齐:将视觉变换器与该语言模型进行对齐。
📦 安装指南
安装依赖
pip install torch transformers==4.40.0 accelerate
💻 使用示例
基础用法
import transformers
import torch
model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"
pipeline = transformers.pipeline(
"text-generation",
model=model_id,
model_kwargs={"torch_dtype": torch.bfloat16},
device_map="auto",
)
pipeline.model.eval()
PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
prompt = pipeline.tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
terminators = [
pipeline.tokenizer.eos_token_id,
pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = pipeline(
prompt,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9
)
print(outputs[0]["generated_text"][len(prompt):])
高级用法
import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = 'MLP-KTLim/llama-3-Korean-Bllossom-8B'
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
model.eval()
PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"
messages = [
{"role": "system", "content": f"{PROMPT}"},
{"role": "user", "content": f"{instruction}"}
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.eos_token_id,
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=2048,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9
)
print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))
📚 详细文档
更新日志
[2024.08.09] 基于Llama3.1版本更新为Bllossom - 8B模型。与原基于llama3的Bllossom相比,性能平均提高了约5%。(正在修改中)- [2024.06.18] 更新为预训练量增加到 250GB 的Bllossom ELO模型,但未进行单词扩展。如果您想使用原单词扩展的长上下文模型,请与我们联系!
- [2024.06.18] Bllossom ELO模型是基于自主开发的ELO预训练的新模型。在LogicKor基准测试中,该模型在现有的韩语10B以下模型中获得了SOTA分数。
LogicKor性能表
模型 | 数学 | 推理 | 写作 | 编码 | 理解 | 语法 | 单项总分 | 多项总分 | 总体 |
---|---|---|---|---|---|---|---|---|---|
gpt - 3.5 - turbo - 0125 | 7.14 | 7.71 | 8.28 | 5.85 | 9.71 | 6.28 | 7.50 | 7.95 | 7.72 |
gemini - 1.5 - pro - preview - 0215 | 8.00 | 7.85 | 8.14 | 7.71 | 8.42 | 7.28 | 7.90 | 6.26 | 7.08 |
llama - 3 - Korean - Bllossom - 8B | 5.43 | 8.29 | 9.0 | 4.43 | 7.57 | 6.86 | 6.93 | 6.93 | 6.93 |
模型介绍
我们的Bllossom团队公开了韩英双语语言模型Bllossom!这是一个在首尔科技大学超级计算中心的支持下,使用超过100GB韩语数据对整个模型进行全量微调的韩语强化双语模型!
如果您正在寻找擅长韩语的模型,Bllossom是您的不二之选:
- 韩语词汇扩展:韩语领域首创,扩展了超过3万个韩语词汇。
- 长上下文处理:与Llama3相比,能够处理大约长25%的韩语上下文。
- 知识链接:利用韩英平行语料库,加强韩语和英语之间的知识联系(预训练)。
- 定制微调:使用考虑韩语文化和语言特点,由语言学家制作的数据进行微调。
- 强化学习:应用了强化学习技术。
所有这些特性都集成在Bllossom模型中,并且该模型可用于商业用途。您可以使用它来创建自己的模型,甚至可以在Colab免费GPU上进行训练。或者,您也可以将量化模型部署在CPU上,量化模型。
其他信息
- Bllossom - 8B是与首尔科技大学、Teddysum和延世大学语言资源实验室的语言学家合作开发的实用主义语言模型!我们将通过持续更新来维护该模型,欢迎大家广泛使用。
- 我们拥有超强大的Advanced - Bllossom 8B、70B模型以及视觉 - 语言模型!(如果您感兴趣,请单独与我们联系!)
- Bllossom已被NAACL2024和LREC - COLING2024(口头)会议录用。
- 我们将持续更新优秀的语言模型!欢迎任何希望共同研究韩语强化的伙伴(特别是论文合作)与我们联系!尤其是有少量GPU租赁能力的团队,随时欢迎与我们联系,我们将尽力提供帮助。
演示视频
新闻动态
- [2024.06.18] 我们恢复到未进行词汇扩展的模型,但显著增加了预训练数据量至250GB。
- [2024.05.08] 词汇扩展模型更新。
- [2024.04.25] 我们发布了基于llama - 3的Bllossom v2.0。
示例代码
Colab教程
🔧 技术细节
本模型由首尔科技大学MLPLab、Teddysum和延世大学联合开发。
📄 许可证
本模型使用llama3许可证。
📚 引用
语言模型
@misc{bllossom,
author = {ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim},
title = {Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean},
year = {2024},
journal = {LREC-COLING 2024},
paperLink = {\url{https://arxiv.org/pdf/2403.10882}},
},
}
视觉 - 语言模型
@misc{bllossom-V,
author = {Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim},
title = {X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment},
year = {2024},
publisher = {GitHub},
journal = {NAACL 2024 findings},
paperLink = {\url{https://arxiv.org/pdf/2403.11399}},
},
}
📞 联系我们
- 임경태(KyungTae Lim),首尔科技大学教授。
ktlim@seoultech.ac.kr
- 함영균(Younggyun Hahm),Teddysum首席执行官。
hahmyg@teddysum.ai
- 김한샘(Hansaem Kim),延世大学教授。
khss@yonsei.ac.kr
👥 贡献者
- 최창수(Chansu Choi),choics2623@seoultech.ac.kr
- 김상민(Sangmin Kim),sangmin9708@naver.com
- 원인호(Inho Won),wih1226@seoultech.ac.kr
- 김민준(Minjun Kim),mjkmain@seoultech.ac.kr
- 송승우(Seungwoo Song),sswoo@seoultech.ac.kr
- 신동재(Dongjae Shin),dylan1998@seoultech.ac.kr
- 임현석(Hyeonseok Lim),gustjrantk@seoultech.ac.kr
- 육정훈(Jeonghun Yuk),usually670@gmail.com
- 유한결(Hangyeol Yoo),21102372@seoultech.ac.kr
- 송서현(Seohyun Song),alexalex225225@gmail.com
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98