Suzume Llama 3 8B日語模型 - 開源免費，專為日語對話場景優化

首頁

Suzume Llama 3 8B Japanese

由lightblue開發

基於Llama 3的日語微調模型，專為日語對話優化

大型語言模型

Transformers

開源協議:其他 #日語對話優化 #Llama-3微調 #多基準領先

下載量 2,011

發布時間 : 4/22/2024

模型概述

Suzume 8B是基於Meta-Llama-3-8B-Instruct的日語微調模型，通過在超過3,000個日語對話上進行微調，使其具備Llama 3的智能同時增加了用日語交流的能力。

模型特點

日語優化

專門針對日語對話進行微調，解決了原Llama 3模型在日語提示下仍用英語回應的問題

高性能

在多種日語基準測試中，這是7/8B類別中表現最佳的LLM模型

多樣化訓練數據

使用三個高質量數據源進行訓練，包含超過3,000個日語對話

模型能力

日語文本生成

日語對話

日語問答

使用案例

旅遊推薦

東京觀光推薦

為用戶推薦東京的觀光景點

日語對話

日語交流

與用戶進行自然的日語對話

🚀 すずめ（Suzume）

すずめ（Suzume） 8B 是基於 Llama 3 進行日語微調的模型。Llama 3 在許多英文基準測試中表現出色，但它主要基於英文數據進行微調，即使輸入日語提示，也可能以英文回覆。而本模型在 3000 多條日語對話數據上進行了微調，既具備 Llama 3 的智能，又能夠流暢地進行日語對話。

Suzume - a Japanese tree sparrow

[論文] [數據集]

🚀 快速開始

你可以使用 vLLM 來使用原始訓練好的模型，示例代碼如下：

基礎用法

from vllm import LLM, SamplingParams

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")

prompts = [
  "東京のおすすめの観光スポットを教えて下さい",
]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📊 評估分數

我們發現，在眾多日語基準測試中，本模型在 70 億 - 80 億參數規模的大語言模型中表現最佳。

我們使用 lightblue-tech/japanese_llm_eval 倉庫來計算日語評估分數。

image/png

我們還使用 multilingual_mt_bench 倉庫將我們的日語模型與多語言模型進行了比較，結果如下：

屬性	詳情
模型類型	基於 Llama 3 的日語微調模型
訓練數據	由三個來源的數據訓練得到，具體見“訓練數據”部分

模型名稱	日語 🇯🇵
lightblue/suzume-llama-3-8B-japanese	6.24
lightblue/suzume-llama-3-8B-multilingual	6.56
Nexusflow/Starling-LM-7B-beta	6.22
gpt-3.5-turbo	7.84

在這裡，我們發現我們的多語言模型在日語 MT-Bench 基準測試中優於日語模型，這表明我們的多語言模型在更多數據上進行訓練後，即使這些額外的數據不是日語，也能更好地泛化到日語 MT-Bench 基準測試中。

注意 - lightblue/suzume-llama-3-8B-japanese 在第一次和第二次評估中的 MT-Bench 分數差異是由於兩個評估工具的系統消息不同。前者的系統消息是日語，而後者的系統消息是英語。

📦 訓練數據

我們使用以下三個來源的數據來訓練這個模型：

megagonlabs/instruction_ja - 669 條對話
- 這是一個手動編輯的數據集，包含近 700 條對話，最初來自 kunishou/hh-rlhf-49k-ja 數據集的翻譯。
openchat/openchat_sharegpt4_dataset（僅日語對話） - 167 條對話
- 這些對話來自人類與 GPT - 4 的交流。
lightblue/tagengo-gpt4（僅日語提示）（鏈接即將發佈！） - 2482 條對話
- 從 lmsys/lmsys-chat-1m 中採樣的近 2500 條不同的日語提示，然後用於提示 gpt-4-0125-preview。

🔧 訓練配置

查看 axolotl 配置

axolotl 版本: 0.4.0

base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer  # PreTrainedTokenizerFast

load_in_8bit: false
load_in_4bit: false
strict: false

datasets:
  - path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
    ds_type: json # see other options below
    type: sharegpt
    conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False

use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct

gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5

train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
  pad_token: <|end_of_text|>

訓練超參數

訓練過程中使用了以下超參數：

學習率: 1e - 05
訓練批次大小: 2
評估批次大小: 2
隨機種子: 42
分佈式類型: 多 GPU
設備數量: 3
梯度累積步數: 2
總訓練批次大小: 12
總評估批次大小: 6
優化器: Adam（β1 = 0.9，β2 = 0.999，ε = 1e - 08）
學習率調度器類型: 餘弦退火
學習率調度器熱身步數: 10
訓練輪數: 1

訓練結果

訓練損失	輪數	步數	驗證損失
1.303	0.08	1	1.2664
1.4231	0.23	3	1.2409
1.1007	0.46	6	1.0264
1.0635	0.69	9	1.0154
1.0221	0.92	12	0.9555

框架版本

Transformers 4.40.0.dev0
Pytorch 2.2.1+cu121
Datasets 2.18.0
Tokenizers 0.15.0

📖 如何引用

在引用此模型時，請引用這篇論文。

@article{devine2024tagengo,
  title={Tagengo: A Multilingual Chat Dataset},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.12612},
  year={2024}
}