🚀 すずめ(Suzume)
すずめ(Suzume) 8B 是基于 Llama 3 进行日语微调的模型。Llama 3 在许多英文基准测试中表现出色,但它主要基于英文数据进行微调,即使输入日语提示,也可能以英文回复。而本模型在 3000 多条日语对话数据上进行了微调,既具备 Llama 3 的智能,又能够流畅地进行日语对话。
[论文] [数据集]
🚀 快速开始
你可以使用 vLLM 来使用原始训练好的模型,示例代码如下:
基础用法
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")
prompts = [
"東京のおすすめの観光スポットを教えて下さい",
]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
📊 评估分数
我们发现,在众多日语基准测试中,本模型在 70 亿 - 80 亿参数规模的大语言模型中表现最佳。
我们使用 lightblue-tech/japanese_llm_eval 仓库来计算日语评估分数。

我们还使用 multilingual_mt_bench 仓库将我们的日语模型与多语言模型进行了比较,结果如下:
属性 |
详情 |
模型类型 |
基于 Llama 3 的日语微调模型 |
训练数据 |
由三个来源的数据训练得到,具体见“训练数据”部分 |
模型名称 |
日语 🇯🇵 |
lightblue/suzume-llama-3-8B-japanese |
6.24 |
lightblue/suzume-llama-3-8B-multilingual |
6.56 |
Nexusflow/Starling-LM-7B-beta |
6.22 |
gpt-3.5-turbo |
7.84 |
在这里,我们发现我们的多语言模型在日语 MT-Bench 基准测试中优于日语模型,这表明我们的多语言模型在更多数据上进行训练后,即使这些额外的数据不是日语,也能更好地泛化到日语 MT-Bench 基准测试中。
注意 - lightblue/suzume-llama-3-8B-japanese
在第一次和第二次评估中的 MT-Bench 分数差异是由于两个评估工具的系统消息不同。前者的系统消息是日语,而后者的系统消息是英语。
📦 训练数据
我们使用以下三个来源的数据来训练这个模型:
🔧 训练配置

查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
datasets:
- path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
ds_type: json
type: sharegpt
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct
gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
训练超参数
训练过程中使用了以下超参数:
- 学习率: 1e - 05
- 训练批次大小: 2
- 评估批次大小: 2
- 随机种子: 42
- 分布式类型: 多 GPU
- 设备数量: 3
- 梯度累积步数: 2
- 总训练批次大小: 12
- 总评估批次大小: 6
- 优化器: Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 学习率调度器类型: 余弦退火
- 学习率调度器热身步数: 10
- 训练轮数: 1
训练结果
训练损失 |
轮数 |
步数 |
验证损失 |
1.303 |
0.08 |
1 |
1.2664 |
1.4231 |
0.23 |
3 |
1.2409 |
1.1007 |
0.46 |
6 |
1.0264 |
1.0635 |
0.69 |
9 |
1.0154 |
1.0221 |
0.92 |
12 |
0.9555 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
📖 如何引用
在引用此模型时,请引用 这篇论文。
@article{devine2024tagengo,
title={Tagengo: A Multilingual Chat Dataset},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.12612},
year={2024}
}
👨💻 开发者
Peter Devine - (ptrdvn)
📄 许可证
本模型使用 llama - 3 许可证。