すずめ・ラマ3 8B日本語モデル - オープンソースで無料、日本語会話シーン向けに最適化

ホーム

Suzume Llama 3 8B Japanese

lightblueによって開発

Llama 3ベースの日本語ファインチューニングモデル、日本語会話に最適化

大規模言語モデル

Transformers

オープンソースライセンス:その他 #日本語会話最適化 #Llama-3ファインチューニング #マルチベンチマークリーダー

ダウンロード数 2,011

リリース時間 : 4/22/2024

モデル概要

すずめ8BはMeta-Llama-3-8B-Instructをベースにした日本語ファインチューニングモデルで、3,000以上の日本語会話データでトレーニングされ、Llama 3の知能を保持しつつ日本語コミュニケーション能力を強化しました。

モデル特徴

日本語最適化

日本語会話に特化してファインチューニングされ、元のLlama 3モデルが日本語プロンプトに対して英語で応答する問題を解決

高性能

複数の日本語ベンチマークテストにおいて、7/8Bカテゴリで最高性能のLLMモデル

多様なトレーニングデータ

3つの高品質データソースを使用し、3,000以上の日本語会話を含む

モデル能力

日本語テキスト生成

日本語会話

日本語質問応答

使用事例

旅行推薦

東京観光おすすめ

ユーザーに東京の観光スポットを推薦

日本語会話

日本語コミュニケーション

ユーザーと自然な日本語会話を実施

🚀 すずめ

このすずめ8Bは、Llama 3を日本語でファインチューニングしたモデルです。Llama 3は多くの英語のベンチマークで優れた性能を発揮していますが、主に英語のデータでファインチューニングされているため、日本語でプロンプトを与えても英語で応答することがあります。私たちは、3000以上の日本語の会話データでLlama 3をファインチューニングしたため、このモデルはLlama 3の知能を持ちながら、日本語でチャットする能力も備えています。

Suzume - a Japanese tree sparrow

[論文] [データセット]

🚀 クイックスタート

このモデルを使用するには、以下の手順に従ってください。

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams

sampling_params = SamplingParams(temperature=0.8, top_p=0.95)

llm = LLM(model="lightblue/suzume-llama-3-8B-japanese")

prompts = [
  "東京のおすすめの観光スポットを教えて下さい",
]

outputs = llm.generate(prompts, sampling_params)

for output in outputs:
    prompt = output.prompt
    generated_text = output.outputs[0].text
    print(f"Prompt: {prompt!r}, Generated text: {generated_text!r}")

📚 ドキュメント

評価スコア

このモデルは、多くの日本語のベンチマークで、7/8BクラスのLLMの中で最も良い性能を示しています。評価スコアは、lightblue-tech/japanese_llm_evalリポジトリを使用して計算されています。

image/png

また、multilingual_mt_benchリポジトリを使用して、日本語モデルと多言語モデルを比較しています。

	lightblue/suzume-llama-3-8B-japanese	lightblue/suzume-llama-3-8B-multilingual	Nexusflow/Starling-LM-7B-beta	gpt-3.5-turbo
日本語 🇯🇵	6.24	6.56	6.22	7.84

ここで、多言語モデルが日本語のMT-Benchベンチマークで日本語モデルを上回っていることがわかります。これは、多言語モデルがより多くのデータで学習することで、日本語のMT-Benchベンチマークに対してより良く汎化できたことを示しています。

⚠️ 重要提示 lightblue/suzume-llama-3-8B-japaneseの最初と2回目の評価のMT-Benchスコアの差は、2つの評価ハーネスのシステムメッセージの違いによるものです。前者のシステムメッセージは日本語で、後者は英語です。

学習データ

このモデルを作成するために、3つのデータソースを使用して学習しています。

megagonlabs/instruction_ja - 669会話
- kunishou/hh-rlhf-49k-jaデータセットの翻訳から元々取られた、約700の会話の手動編集データセットです。
openchat/openchat_sharegpt4_dataset (日本語会話のみ) - 167会話
- 人間がGPT-4と話した会話です。
lightblue/tagengo-gpt4 (日本語プロンプトのみ) (近日公開！) - 2,482会話
- lmsys/lmsys-chat-1mからサンプリングされた約2,500の多様な日本語プロンプトを使用して、gpt-4-0125-previewにプロンプトを与えたものです。

学習設定

axolotl設定を表示

axolotlバージョン: 0.4.0

base_model: meta-llama/Meta-Llama-3-8B-Instruct
model_type: LlamaForCausalLM
tokenizer_type: AutoTokenizer  # PreTrainedTokenizerFast

load_in_8bit: false
load_in_4bit: false
strict: false

datasets:
  - path: /workspace/llm_training/axolotl/llama3-ja/openchat_megagon_lbgpt4_ja.json
    ds_type: json # see other options below
    type: sharegpt
    conversation: llama-3
dataset_prepared_path: /workspace/llm_training/axolotl/llama3-ja/prepared_openchat_megagon_lbgpt4_ja
val_set_size: 0.01
output_dir: /workspace/llm_training/axolotl/llama3-ja/output_openchat_megagon_lbgpt4_ja_8B_instruct

sequence_len: 8192
sample_packing: true
pad_to_sequence_len: true
eval_sample_packing: False

use_wandb: true
wandb_project: axolotl
wandb_entity: peterd
wandb_name: openchat_megagon_lbgpt4_ja_8B_instruct

gradient_accumulation_steps: 2
micro_batch_size: 2
num_epochs: 1
optimizer: paged_adamw_8bit
lr_scheduler: cosine
learning_rate: 1e-5

train_on_inputs: false
group_by_length: false
bf16: auto
fp16:
tf32: false

gradient_checkpointing: true
gradient_checkpointing_kwargs:
  use_reentrant: false
early_stopping_patience:
resume_from_checkpoint:
logging_steps: 1
xformers_attention:
flash_attention: true

warmup_steps: 10
evals_per_epoch: 5
eval_table_size:
saves_per_epoch: 1
debug:
deepspeed: /workspace/axolotl/deepspeed_configs/zero2.json
weight_decay: 0.0
special_tokens:
  pad_token: <|end_of_text|>

学習手順

学習ハイパーパラメータ

学習中に使用されたハイパーパラメータは以下の通りです。

学習率: 1e-05
学習バッチサイズ: 2
評価バッチサイズ: 2
シード: 42
分散タイプ: マルチGPU
デバイス数: 3
勾配累積ステップ数: 2
総学習バッチサイズ: 12
総評価バッチサイズ: 6
オプティマイザ: betas=(0.9,0.999)、epsilon=1e-08のAdam
学習率スケジューラタイプ: コサイン
学習率スケジューラウォームアップステップ数: 10
エポック数: 1

学習結果

学習損失	エポック	ステップ	検証損失
1.303	0.08	1	1.2664
1.4231	0.23	3	1.2409
1.1007	0.46	6	1.0264
1.0635	0.69	9	1.0154
1.0221	0.92	12	0.9555

フレームワークバージョン

Transformers 4.40.0.dev0
Pytorch 2.2.1+cu121
Datasets 2.18.0
Tokenizers 0.15.0

引用方法

このモデルを参照する場合は、この論文を引用してください。

@article{devine2024tagengo,
  title={Tagengo: A Multilingual Chat Dataset},
  author={Devine, Peter},
  journal={arXiv preprint arXiv:2405.12612},
  year={2024}
}