🚀 すずめ(Suzume)
すずめ(Suzume) 8B 是基於 Llama 3 進行日語微調的模型。Llama 3 在許多英文基準測試中表現出色,但它主要基於英文數據進行微調,即使輸入日語提示,也可能以英文回覆。而本模型在 3000 多條日語對話數據上進行了微調,既具備 Llama 3 的智能,又能夠流暢地進行日語對話。
[論文] [數據集]
🚀 快速開始
你可以使用 vLLM 來使用原始訓練好的模型,示例代碼如下:
基礎用法
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")
prompts = [
"東京のおすすめの観光スポットを教えて下さい",
]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
📊 評估分數
我們發現,在眾多日語基準測試中,本模型在 70 億 - 80 億參數規模的大語言模型中表現最佳。
我們使用 lightblue-tech/japanese_llm_eval 倉庫來計算日語評估分數。

我們還使用 multilingual_mt_bench 倉庫將我們的日語模型與多語言模型進行了比較,結果如下:
屬性 |
詳情 |
模型類型 |
基於 Llama 3 的日語微調模型 |
訓練數據 |
由三個來源的數據訓練得到,具體見“訓練數據”部分 |
模型名稱 |
日語 🇯🇵 |
lightblue/suzume-llama-3-8B-japanese |
6.24 |
lightblue/suzume-llama-3-8B-multilingual |
6.56 |
Nexusflow/Starling-LM-7B-beta |
6.22 |
gpt-3.5-turbo |
7.84 |
在這裡,我們發現我們的多語言模型在日語 MT-Bench 基準測試中優於日語模型,這表明我們的多語言模型在更多數據上進行訓練後,即使這些額外的數據不是日語,也能更好地泛化到日語 MT-Bench 基準測試中。
注意 - lightblue/suzume-llama-3-8B-japanese
在第一次和第二次評估中的 MT-Bench 分數差異是由於兩個評估工具的系統消息不同。前者的系統消息是日語,而後者的系統消息是英語。
📦 訓練數據
我們使用以下三個來源的數據來訓練這個模型:
🔧 訓練配置

查看 axolotl 配置
axolotl 版本: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
datasets:
- path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
ds_type: json
type: sharegpt
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct
gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
訓練超參數
訓練過程中使用了以下超參數:
- 學習率: 1e - 05
- 訓練批次大小: 2
- 評估批次大小: 2
- 隨機種子: 42
- 分佈式類型: 多 GPU
- 設備數量: 3
- 梯度累積步數: 2
- 總訓練批次大小: 12
- 總評估批次大小: 6
- 優化器: Adam(β1 = 0.9,β2 = 0.999,ε = 1e - 08)
- 學習率調度器類型: 餘弦退火
- 學習率調度器熱身步數: 10
- 訓練輪數: 1
訓練結果
訓練損失 |
輪數 |
步數 |
驗證損失 |
1.303 |
0.08 |
1 |
1.2664 |
1.4231 |
0.23 |
3 |
1.2409 |
1.1007 |
0.46 |
6 |
1.0264 |
1.0635 |
0.69 |
9 |
1.0154 |
1.0221 |
0.92 |
12 |
0.9555 |
框架版本
- Transformers 4.40.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
📖 如何引用
在引用此模型時,請引用 這篇論文。
@article{devine2024tagengo,
title={Tagengo: A Multilingual Chat Dataset},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.12612},
year={2024}
}
👨💻 開發者
Peter Devine - (ptrdvn)
📄 許可證
本模型使用 llama - 3 許可證。