Suzume Llama 3 8B日语模型 - 开源免费，专为日语对话场景优化

首页

Suzume Llama 3 8B Japanese

由 lightblue 开发

基于Llama 3的日语微调模型，专为日语对话优化

大型语言模型

Transformers

开源协议:其他 #日语对话优化 #Llama-3微调 #多基准领先

下载量 2,011

发布时间 : 4/22/2024

模型简介

Suzume 8B是基于Meta-Llama-3-8B-Instruct的日语微调模型，通过在超过3,000个日语对话上进行微调，使其具备Llama 3的智能同时增加了用日语交流的能力。

模型特点

日语优化

专门针对日语对话进行微调，解决了原Llama 3模型在日语提示下仍用英语回应的问题

高性能

在多种日语基准测试中，这是7/8B类别中表现最佳的LLM模型

多样化训练数据

使用三个高质量数据源进行训练，包含超过3,000个日语对话

模型能力

日语文本生成

日语对话

日语问答

使用案例

旅游推荐

东京观光推荐

为用户推荐东京的观光景点

日语对话

日语交流

与用户进行自然的日语对话

🚀 すずめ（Suzume）

すずめ（Suzume） 8B 是基于 Llama 3 进行日语微调的模型。Llama 3 在许多英文基准测试中表现出色，但它主要基于英文数据进行微调，即使输入日语提示，也可能以英文回复。而本模型在 3000 多条日语对话数据上进行了微调，既具备 Llama 3 的智能，又能够流畅地进行日语对话。

Suzume - a Japanese tree sparrow

[论文] [数据集]

🚀 快速开始

你可以使用 vLLM 来使用原始训练好的模型，示例代码如下：

基础用法

from vllm import LLM, SamplingParams

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")

prompts = [
  "東京のおすすめの観光スポットを教えて下さい",
]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📊 评估分数

我们发现，在众多日语基准测试中，本模型在 70 亿 - 80 亿参数规模的大语言模型中表现最佳。

我们使用 lightblue-tech/japanese_llm_eval 仓库来计算日语评估分数。

image/png

我们还使用 multilingual_mt_bench 仓库将我们的日语模型与多语言模型进行了比较，结果如下：

属性	详情
模型类型	基于 Llama 3 的日语微调模型
训练数据	由三个来源的数据训练得到，具体见“训练数据”部分

模型名称	日语 🇯🇵
lightblue/suzume-llama-3-8B-japanese	6.24
lightblue/suzume-llama-3-8B-multilingual	6.56
Nexusflow/Starling-LM-7B-beta	6.22
gpt-3.5-turbo	7.84

在这里，我们发现我们的多语言模型在日语 MT-Bench 基准测试中优于日语模型，这表明我们的多语言模型在更多数据上进行训练后，即使这些额外的数据不是日语，也能更好地泛化到日语 MT-Bench 基准测试中。

注意 - lightblue/suzume-llama-3-8B-japanese 在第一次和第二次评估中的 MT-Bench 分数差异是由于两个评估工具的系统消息不同。前者的系统消息是日语，而后者的系统消息是英语。

📦 训练数据

我们使用以下三个来源的数据来训练这个模型：

megagonlabs/instruction_ja - 669 条对话
- 这是一个手动编辑的数据集，包含近 700 条对话，最初来自 kunishou/hh-rlhf-49k-ja 数据集的翻译。
openchat/openchat_sharegpt4_dataset（仅日语对话） - 167 条对话
- 这些对话来自人类与 GPT - 4 的交流。
lightblue/tagengo-gpt4（仅日语提示）（链接即将发布！） - 2482 条对话
- 从 lmsys/lmsys-chat-1m 中采样的近 2500 条不同的日语提示，然后用于提示 gpt-4-0125-preview。

🔧 训练配置

查看 axolotl 配置

axolotl 版本: 0.4.0

base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer  # PreTrainedTokenizerFast

load_in_8bit: false
load_in_4bit: false
strict: false

datasets:
  - path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
    ds_type: json # see other options below
    type: sharegpt
    conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False

use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct

gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5

train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
  pad_token: <|end_of_text|>

训练超参数

训练过程中使用了以下超参数：

学习率: 1e - 05
训练批次大小: 2
评估批次大小: 2
随机种子: 42
分布式类型: 多 GPU
设备数量: 3
梯度累积步数: 2
总训练批次大小: 12
总评估批次大小: 6
优化器: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
学习率调度器类型: 余弦退火
学习率调度器热身步数: 10
训练轮数: 1

训练结果

训练损失	轮数	步数	验证损失
1.303	0.08	1	1.2664
1.4231	0.23	3	1.2409
1.1007	0.46	6	1.0264
1.0635	0.69	9	1.0154
1.0221	0.92	12	0.9555

框架版本

Transformers 4.40.0.dev0
Pytorch 2.2.1+cu121
Datasets 2.18.0
Tokenizers 0.15.0

📖 如何引用

在引用此模型时，请引用这篇论文。

@article{devine2024tagengo,
  title={Tagengo: A Multilingual Chat Dataset},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.12612},
  year={2024}
}