🚀 Llama 3 Youko 8B Instruct (rinna/llama-3-youko-8b-instruct)
このモデルは、rinna/llama-3-youko-8bを教師付き微調整(SFT)、Chat Vector、直接的嗜好最適化(DPO)を用いて命令調整したバージョンです。Llama-3のチャット形式を採用しています。

🚀 クイックスタート
このモデルは、Llama 3 Youko 8Bをベースにした命令調整済みモデルです。以下のセクションで、モデルの概要、ベンチマーク、使用方法、トークナイゼーション、引用方法、参考文献、ライセンスについて説明します。
✨ 主な機能
- 教師付き微調整(SFT)、Chat Vector、直接的嗜好最適化(DPO)を用いた命令調整
- Llama-3のチャット形式を採用
- 複数のデータセットを用いた学習
📚 ドキュメント
概要
32層、隠れ層サイズ4096のTransformerベースの言語モデルです。アーキテクチャの詳細については、Llama 3 Model Cardを参照してください。
教師付き微調整。教師付き微調整データは、以下のデータセットのサブセットです。
モデルマージ。微調整されたモデル(llama-3-youko-8b-sft)は、以下のチャットベクトルの追加によって強化されています。チャットベクトルは、meta-llama/Meta-Llama-3-8Bのパラメータベクトルからmeta-llama/Meta-Llama-3-8B-Instructのパラメータベクトルを減算することで取得されました。
llama-3-youko-8b-sft + 0.5 * (meta-llama/Meta-Llama-3-8B-Instruct - meta-llama/Meta-Llama-3-8B)
ここで、パラメータベクトルの減算および加算時に埋め込み層はスキップされました。
直接的嗜好最適化 が、以下のデータセットのサブセットを使用してこの命令モデルを構築するために適用されました。
2024年7月25日
ベンチマーク
rinnaのLMベンチマークページ(シート20240725)を参照してください。
トークナイゼーション
このモデルは、元のmeta-llama/Meta-Llama-3-8B-Instructトークナイザーを使用しています。
引用方法
@misc{rinna-llama-3-youko-8b-instruct,
title = {rinna/llama-3-youko-8b-instruct},
author = {Chen, Xinqi and Mitsuda, Koh and Wakatsuki, Toshiaki and Sawada, Kei},
url = {https://huggingface.co/rinna/llama-3-youko-8b-instruct}
}
@inproceedings{sawada2024release,
title = {Release of Pre-Trained Models for the {J}apanese Language},
author = {Sawada, Kei and Zhao, Tianyu and Shing, Makoto and Mitsui, Kentaro and Kaga, Akio and Hono, Yukiya and Wakatsuki, Toshiaki and Mitsuda, Koh},
booktitle = {Proceedings of the 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024)},
month = {5},
year = {2024},
pages = {13898--13905},
url = {https://aclanthology.org/2024.lrec-main.1213},
note = {\url{https://arxiv.org/abs/2404.01657}}
}
参考文献
@article{llama3modelcard,
title = {Llama 3 Model Card},
author = {AI@Meta},
year = {2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
@article{huang2023chat,
title = {Chat Vector: A Simple Approach to Equip LLMs with Instruction Following and Model Alignment in New Languages},
author = {Huang, Shih-Cheng and Li, Pin-Zu and Hsu, Yu-Chi and Chen, Kuang-Ming and Lin, Yu Tung and Hsiao, Shih-Kai and Tzong-Han Tsai, Richard and Lee, Hung-yi},
year = {2023},
url = {https://arxiv.org/abs/2310.04799}
}
💻 使用例
基本的な使用法
この命令調整済みモデルは、ベースモデルよりも繰り返しテキストを生成する傾向があるため、生成性能を向上させるためにrepetition_penalty=1.1を設定しています。前述の評価実験でも、同じ繰り返しペナルティが命令調整済みモデルに適用されています。
import torch
from transformers import AutoTokenizer, AutoModelForCausalLM
model_id = "rinna/llama-3-youko-8b-instruct"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
model_id,
torch_dtype=torch.bfloat16,
device_map="auto",
)
messages = [
{"role": "system", "content": "あなたは誠実で優秀なアシスタントです。どうか、簡潔かつ正直に答えてください。"},
{"role": "user", "content": "西田幾多郎とはどんな人物ですか?"},
]
input_ids = tokenizer.apply_chat_template(
messages,
add_generation_prompt=True,
return_tensors="pt"
).to(model.device)
terminators = [
tokenizer.convert_tokens_to_ids("<|end_of_text|>"),
tokenizer.convert_tokens_to_ids("<|eot_id|>")
]
outputs = model.generate(
input_ids,
max_new_tokens=512,
eos_token_id=terminators,
do_sample=True,
temperature=0.6,
top_p=0.9,
repetition_penalty=1.1,
)
response = outputs[0][input_ids.shape[-1]:]
response = tokenizer.decode(response, skip_special_tokens=True)
print(response)
📄 ライセンス
Meta Llama 3 Community License