🚀 すずめ
このすずめ8Bは、Llama 3を日本語でファインチューニングしたモデルです。Llama 3は多くの英語のベンチマークで優れた性能を発揮していますが、主に英語のデータでファインチューニングされているため、日本語でプロンプトを与えても英語で応答することがあります。私たちは、3000以上の日本語の会話データでLlama 3をファインチューニングしたため、このモデルはLlama 3の知能を持ちながら、日本語でチャットする能力も備えています。
[論文] [データセット]
🚀 クイックスタート
このモデルを使用するには、以下の手順に従ってください。
💻 使用例
基本的な使用法
from vllm import LLM, SamplingParams
sampling_params = SamplingParams(temperature=0.8, top_p=0.95)
llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")
prompts = [
"東京のおすすめの観光スポットを教えて下さい",
]
outputs = llm.generate(prompts, sampling_params)
for output in outputs:
prompt = output.prompt
generated_text = output.outputs[0].text
print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")
📚 ドキュメント
評価スコア
このモデルは、多くの日本語のベンチマークで、7/8BクラスのLLMの中で最も良い性能を示しています。評価スコアは、lightblue-tech/japanese_llm_evalリポジトリを使用して計算されています。

また、multilingual_mt_benchリポジトリを使用して、日本語モデルと多言語モデルを比較しています。
|
lightblue/suzume-llama-3-8B-japanese |
lightblue/suzume-llama-3-8B-multilingual |
Nexusflow/Starling-LM-7B-beta |
gpt-3.5-turbo |
日本語 🇯🇵 |
6.24 |
6.56 |
6.22 |
7.84 |
ここで、多言語モデルが日本語のMT-Benchベンチマークで日本語モデルを上回っていることがわかります。これは、多言語モデルがより多くのデータで学習することで、日本語のMT-Benchベンチマークに対してより良く汎化できたことを示しています。
⚠️ 重要提示
lightblue/suzume-llama-3-8B-japanese
の最初と2回目の評価のMT-Benchスコアの差は、2つの評価ハーネスのシステムメッセージの違いによるものです。前者のシステムメッセージは日本語で、後者は英語です。
学習データ
このモデルを作成するために、3つのデータソースを使用して学習しています。
学習設定

axolotl設定を表示
axolotlバージョン: 0.4.0
base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer
load_in_8bit: false
load_in_4bit: false
strict: false
datasets:
- path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
ds_type: json
type: sharegpt
conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct
sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False
use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct
gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5
train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false
gradient_checkpointing: true
gradient_checkpointing_kwargs:
use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true
warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
pad_token: <|end_of_text|>
学習手順
学習ハイパーパラメータ
学習中に使用されたハイパーパラメータは以下の通りです。
- 学習率: 1e-05
- 学習バッチサイズ: 2
- 評価バッチサイズ: 2
- シード: 42
- 分散タイプ: マルチGPU
- デバイス数: 3
- 勾配累積ステップ数: 2
- 総学習バッチサイズ: 12
- 総評価バッチサイズ: 6
- オプティマイザ: betas=(0.9,0.999)、epsilon=1e-08のAdam
- 学習率スケジューラタイプ: コサイン
- 学習率スケジューラウォームアップステップ数: 10
- エポック数: 1
学習結果
学習損失 |
エポック |
ステップ |
検証損失 |
1.303 |
0.08 |
1 |
1.2664 |
1.4231 |
0.23 |
3 |
1.2409 |
1.1007 |
0.46 |
6 |
1.0264 |
1.0635 |
0.69 |
9 |
1.0154 |
1.0221 |
0.92 |
12 |
0.9555 |
フレームワークバージョン
- Transformers 4.40.0.dev0
- Pytorch 2.2.1+cu121
- Datasets 2.18.0
- Tokenizers 0.15.0
引用方法
このモデルを参照する場合は、この論文を引用してください。
@article{devine2024tagengo,
title={Tagengo: A Multilingual Chat Dataset},
author={Devine, Peter},
journal={arXiv preprint arXiv:2405.12612},
year={2024}
}
開発者
Peter Devine - (ptrdvn)
📄 ライセンス
このモデルは、llama-3ライセンスの下で提供されています。