llama-3-Korean-Bllossom-8B开源语言模型 - 加强韩语能力，支持韩英双语交流

首页

Llama 3 Korean Bllossom 8B

由 MLP-KTLim 开发

Bllossom是基于Llama3的韩英双语语言模型，通过全面调优增强韩语能力，扩展了韩语词汇并优化了韩语上下文处理能力。

大型语言模型

Transformers

支持多种语言#多语言对话 #轻量级LLM #中英韩支持

下载量 26.67k

发布时间 : 4/25/2024

模型简介

Bllossom是一个专注于韩英双语能力的语言模型，通过词汇扩展、指令调优和人类反馈优化，显著提升了韩语处理能力。

模型特点

韩语词汇扩展

扩展了超过3万个韩语词汇，增强了韩语表达能力

长上下文处理

相比Llama3，能处理约25%更长的韩语上下文

韩英知识连接

利用韩英平行语料库进行知识连接预训练

文化适应性

基于考虑韩国文化与语言的语言学家制作的数据进行微调

强化学习优化

应用了DPO（直接偏好优化）进行模型优化

模型能力

韩语文本生成

英语文本生成

双语问答

旅游路线规划

文化相关内容生成

使用案例

旅游助手

首尔旅游路线规划

为用户制定首尔著名旅游路线

生成包含景点、交通和时间的详细旅游计划

教育辅助

韩英双语学习

辅助韩语和英语学习者进行语言练习

提供准确的双语翻译和语言解释

🚀 Bllossom

Bllossom是一个基于开源LLama3的韩英双语语言模型，它加强了韩语和英语之间的知识联系，为用户提供更丰富的语言交互体验。

🚀 快速开始

Bllossom语言模型是基于开源LLama3的韩英双语语言模型，它加强了韩语和英语之间的知识联系。以下是使用该模型的快速指南：

安装依赖

pip install torch transformers==4.40.0 accelerate

Python代码示例（使用Pipeline）

import transformers
import torch

model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

pipeline.model.eval()

PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"

messages = [
    {"role": "system", "content": f"{PROMPT}"},
    {"role": "user", "content": f"{instruction}"}
    ]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=2048,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9
)

print(outputs[0]["generated_text"][len(prompt):])

Python代码示例（使用AutoModel）

import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = 'MLP-KTLim/llama-3-Korean-Bllossom-8B'

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

model.eval()

PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"

messages = [
    {"role": "system", "content": f"{PROMPT}"},
    {"role": "user", "content": f"{instruction}"}
    ]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=2048,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9
)

print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))

✨ 主要特性

知识链接：通过额外训练，将韩语和英语知识进行链接。
词汇扩展：扩展韩语词汇，增强韩语表达能力。
指令微调：使用专门为韩语和韩国文化定制的指令跟随数据进行微调。
人类反馈：应用了DPO。
视觉 - 语言对齐：将视觉变换器与该语言模型进行对齐。

📦 安装指南

安装依赖

pip install torch transformers==4.40.0 accelerate

💻 使用示例

基础用法

import transformers
import torch

model_id = "MLP-KTLim/llama-3-Korean-Bllossom-8B"

pipeline = transformers.pipeline(
    "text-generation",
    model=model_id,
    model_kwargs={"torch_dtype": torch.bfloat16},
    device_map="auto",
)

pipeline.model.eval()

PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"

messages = [
    {"role": "system", "content": f"{PROMPT}"},
    {"role": "user", "content": f"{instruction}"}
    ]

prompt = pipeline.tokenizer.apply_chat_template(
        messages, 
        tokenize=False, 
        add_generation_prompt=True
)

terminators = [
    pipeline.tokenizer.eos_token_id,
    pipeline.tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = pipeline(
    prompt,
    max_new_tokens=2048,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9
)

print(outputs[0]["generated_text"][len(prompt):])

高级用法

import os
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

model_id = 'MLP-KTLim/llama-3-Korean-Bllossom-8B'

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    torch_dtype=torch.bfloat16,
    device_map="auto",
)

model.eval()

PROMPT = '''You are a helpful AI assistant. Please answer the user's questions kindly. 당신은 유능한 AI 어시스턴트 입니다. 사용자의 질문에 대해 친절하게 답변해주세요.'''
instruction = "서울의 유명한 관광 코스를 만들어줄래?"

messages = [
    {"role": "system", "content": f"{PROMPT}"},
    {"role": "user", "content": f"{instruction}"}
    ]

input_ids = tokenizer.apply_chat_template(
    messages,
    add_generation_prompt=True,
    return_tensors="pt"
).to(model.device)

terminators = [
    tokenizer.eos_token_id,
    tokenizer.convert_tokens_to_ids("<|eot_id|>")
]

outputs = model.generate(
    input_ids,
    max_new_tokens=2048,
    eos_token_id=terminators,
    do_sample=True,
    temperature=0.6,
    top_p=0.9
)

print(tokenizer.decode(outputs[0][input_ids.shape[-1]:], skip_special_tokens=True))

📚 详细文档

更新日志

~~[2024.08.09] 基于Llama3.1版本更新为Bllossom - 8B模型。与原基于llama3的Bllossom相比，性能平均提高了约5%。~~（正在修改中）
[2024.06.18] 更新为预训练量增加到 250GB 的Bllossom ELO模型，但未进行单词扩展。如果您想使用原单词扩展的长上下文模型，请与我们联系！
[2024.06.18] Bllossom ELO模型是基于自主开发的ELO预训练的新模型。在LogicKor基准测试中，该模型在现有的韩语10B以下模型中获得了SOTA分数。

LogicKor性能表

模型	数学	推理	写作	编码	理解	语法	单项总分	多项总分	总体
gpt - 3.5 - turbo - 0125	7.14	7.71	8.28	5.85	9.71	6.28	7.50	7.95	7.72
gemini - 1.5 - pro - preview - 0215	8.00	7.85	8.14	7.71	8.42	7.28	7.90	6.26	7.08
llama - 3 - Korean - Bllossom - 8B	5.43	8.29	9.0	4.43	7.57	6.86	6.93	6.93	6.93

模型介绍

我们的Bllossom团队公开了韩英双语语言模型Bllossom！这是一个在首尔科技大学超级计算中心的支持下，使用超过100GB韩语数据对整个模型进行全量微调的韩语强化双语模型！

如果您正在寻找擅长韩语的模型，Bllossom是您的不二之选：

韩语词汇扩展：韩语领域首创，扩展了超过3万个韩语词汇。
长上下文处理：与Llama3相比，能够处理大约长25%的韩语上下文。
知识链接：利用韩英平行语料库，加强韩语和英语之间的知识联系（预训练）。
定制微调：使用考虑韩语文化和语言特点，由语言学家制作的数据进行微调。
强化学习：应用了强化学习技术。

所有这些特性都集成在Bllossom模型中，并且该模型可用于商业用途。您可以使用它来创建自己的模型，甚至可以在Colab免费GPU上进行训练。或者，您也可以将量化模型部署在CPU上，量化模型。

其他信息

Bllossom - 8B是与首尔科技大学、Teddysum和延世大学语言资源实验室的语言学家合作开发的实用主义语言模型！我们将通过持续更新来维护该模型，欢迎大家广泛使用。
我们拥有超强大的Advanced - Bllossom 8B、70B模型以及视觉 - 语言模型！（如果您感兴趣，请单独与我们联系！）
Bllossom已被NAACL2024和LREC - COLING2024（口头）会议录用。
我们将持续更新优秀的语言模型！欢迎任何希望共同研究韩语强化的伙伴（特别是论文合作）与我们联系！尤其是有少量GPU租赁能力的团队，随时欢迎与我们联系，我们将尽力提供帮助。

演示视频

Bllossom - V演示

Bllossom演示（Kakao）

新闻动态

[2024.06.18] 我们恢复到未进行词汇扩展的模型，但显著增加了预训练数据量至250GB。
[2024.05.08] 词汇扩展模型更新。
[2024.04.25] 我们发布了基于llama - 3的Bllossom v2.0。

示例代码

Colab教程

推理代码链接

🔧 技术细节

本模型由首尔科技大学MLPLab、Teddysum和延世大学联合开发。

📄 许可证

本模型使用llama3许可证。

📚 引用

语言模型

@misc{bllossom,
  author = {ChangSu Choi, Yongbin Jeong, Seoyoon Park, InHo Won, HyeonSeok Lim, SangMin Kim, Yejee Kang, Chanhyuk Yoon, Jaewan Park, Yiseul Lee, HyeJin Lee, Younggyun Hahm, Hansaem Kim, KyungTae Lim},
  title = {Optimizing Language Augmentation for Multilingual Large Language Models: A Case Study on Korean},
  year = {2024},
  journal = {LREC-COLING 2024},
  paperLink = {\url{https://arxiv.org/pdf/2403.10882}},
 },
}

视觉 - 语言模型

@misc{bllossom-V,
  author = {Dongjae Shin, Hyunseok Lim, Inho Won, Changsu Choi, Minjun Kim, Seungwoo Song, Hangyeol Yoo, Sangmin Kim, Kyungtae Lim},
  title = {X-LLaVA: Optimizing Bilingual Large Vision-Language Alignment},
  year = {2024},
  publisher = {GitHub},
  journal = {NAACL 2024 findings},
  paperLink = {\url{https://arxiv.org/pdf/2403.11399}},
 },
}