モデル概要
モデル特徴
モデル能力
使用事例
language:
- en
- ja library_name: transformers pipeline_tag: text-generation license:
- llama3.3
- gemma model_type: llama datasets:
- tokyotech-llm/lmsys-chat-1m-synth
- tokyotech-llm/swallow-magpie-ultra-v0.1
- tokyotech-llm/swallow-gemma-magpie-v0.1
- lmsys/lmsys-chat-1m
- argilla/magpie-ultra-v0.1
Llama 3.3 Swallow - Llamaベース構築
Llama 3.3 SwallowはMeta Llama 3.3モデルを継続事前学習して構築された大規模言語モデル(70B)です。 Llama 3.3 Swallowは元のLlama 3.3の英語能力を保持しつつ、日本語能力を強化しています。 継続事前学習には、大規模な日本語ウェブコーパス(Swallow Corpus Version 2)からサンプリングした約3150億トークン、日本語・英語Wikipedia記事、数学・プログラミングコンテンツなどを使用しました(ベースモデルのTraining Datasetsセクション参照)。 命令チューニングモデル(Instruct)は、日本語向けに特別に構築された合成データを用いた教師ありファインチューニング(SFT)で構築されました。他のモデルバリアントについてはSwallow Model Indexセクションをご覧ください。
リリース履歴
- 2025年3月10日: Llama-3.3-Swallow-70B-Instruct-v0.4とLlama-3.3-Swallow-70B-v0.4をリリース
- 2024年12月30日: Llama-3.1-Swallow-70B-Instruct-v0.3をリリース
- 2024年12月23日: Llama-3.1-Swallow-8B-Instruct-v0.3をリリース
- 2024年11月11日: Llama-3.1-Swallow-8B-v0.2とLlama-3.1-Swallow-8B-Instruct-v0.2をリリース
- 2024年10月8日: Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1、Llama-3.1-Swallow-70B-Instruct-v0.1をリリース
Swallowモデルインデックス
モデル | Llama-3.1-Swallow v0.1 | Llama-3.1-Swallow-Instruct v0.1 | Llama-3.1-Swallow v0.2 | Llama-3.1-Swallow-Instruct v0.2 | Llama-3.1-Swallow-Instruct v0.3 | Llama-3.3-Swallow v0.4 | Llama-3.3-Swallow-Instruct v0.4 |
---|---|---|---|---|---|---|---|
8B | 🤗 HuggingFace | 🤗 HuggingFace | 🤗 HuggingFace | 🤗 HuggingFace | 🤗 HuggingFace | ||
70B | 🤗 HuggingFace | 🤗 Huggingface | 🤗 HuggingFace | 🤗 HuggingFace | 🤗 HuggingFace |
ウェブサイトhttps://swallow-llm.github.io/では、Swallowチームが開発した大規模言語モデルを提供しています。
モデル詳細
- モデルタイプ: モデルアーキテクチャの詳細についてはLlama 3.1 MODEL_CARDを参照してください。
- 対応言語: 日本語 英語
- ライブラリ: Megatron-LM
- トークナイザー: トークナイザーの詳細についてはLlama 3.1ブログを参照してください。
- 連絡先: swallow[at]nlp.c.titech.ac.jp
モデル性能
MT-Bench JA
モデル | coding | extraction | humanities | math | reasoning | roleplay | stem | writing | JMT Avg |
---|---|---|---|---|---|---|---|---|---|
Llama 3 70B Instruct | 0.588 | 0.884 | 0.715 | 0.637 | 0.487 | 0.594 | 0.598 | 0.619 | 0.640 |
Llama 3.1 70B Instruct | 0.691 | 0.848 | 0.730 | 0.669 | 0.618 | 0.699 | 0.699 | 0.694 | 0.706 |
Llama 3.3 70B Instruct | 0.707 | 0.865 | 0.757 | 0.720 | 0.635 | 0.773 | 0.706 | 0.733 | 0.737 |
Llama 3 Youko 70B Instruct | 0.607 | 0.894 | 0.834 | 0.609 | 0.673 | 0.790 | 0.764 | 0.829 | 0.750 |
Llama-3.1-70B-Japanese-Instruct-24070 | 0.683 | 0.827 | 0.824 | 0.749 | 0.643 | 0.818 | 0.715 | 0.751 | 0.751 |
Llama 3 heron brain 70B v0.3 | 0.510 | 0.870 | 0.776 | 0.680 | 0.513 | 0.727 | 0.692 | 0.693 | 0.683 |
Llama 3 Swallow 70B Instruct | 0.633 | 0.823 | 0.601 | 0.521 | 0.482 | 0.622 | 0.635 | 0.630 | 0.618 |
Llama 3.1 Swallow 70B Instruct v0.1 | 0.654 | 0.792 | 0.768 | 0.704 | 0.573 | 0.682 | 0.653 | 0.704 | 0.691 |
Llama 3.1 Swallow 70B Instruct v0.3 | 0.678 | 0.820 | 0.867 | 0.776 | 0.570 | 0.816 | 0.769 | 0.852 | 0.769 |
Llama 3.3 Swallow 70B Instruct v0.4 | 0.705 | 0.820 | 0.870 | 0.730 | 0.623 | 0.811 | 0.781 | 0.832 | 0.772 |
Qwen2-72B-Instruct | 0.632 | 0.800 | 0.842 | 0.688 | 0.616 | 0.824 | 0.797 | 0.846 | 0.756 |
Qwen2.5-72B-Instruct | 0.795 | 0.860 | 0.865 | 0.857 | 0.784 | 0.863 | 0.804 | 0.854 | 0.835 |
GPT-3.5 (gpt-3.5-turbo-0125) | 0.693 | 0.789 | 0.773 | 0.665 | 0.462 | 0.728 | 0.644 | 0.775 | 0.691 |
GPT-4o (gpt-4o-2024-08-06) | 0.855 | 0.926 | 0.880 | 0.872 | 0.706 | 0.862 | 0.838 | 0.849 | 0.848 |
GPT-4o-mini (gpt-4o-mini-2024-07-18) | 0.825 | 0.865 | 0.857 | 0.843 | 0.665 | 0.846 | 0.855 | 0.840 | 0.824 |
日本語タスク
モデル | JCom. | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20-en-ja | WMT20-ja-en | JMMLU | JHumanEval | Ja Avg |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 1-shot | 4-shot | 4-shot | 4-shot | 5-shot | 0-shot | ||
EM acc | Char-F1 | Char-F1 | Char-F1 | ROUGE-2 | EM acc | BLEU | BLEU | EM acc | pass@1 | ||
Llama 3 70B Instruct | 0.940 | 0.615 | 0.557 | 0.913 | 0.191 | 0.716 | 0.269 | 0.234 | 0.680 | 0.662 | 0.578 |
Llama 3.1 70B Instruct | 0.950 | 0.635 | 0.579 | 0.921 | 0.178 | 0.732 | 0.279 | 0.247 | 0.733 | 0.696 | 0.595 |
Llama 3.3 70B Instruct | 0.941 | 0.640 | 0.570 | 0.893 | 0.179 | 0.784 | 0.278 | 0.243 | 0.735 | 0.744 | 0.601 |
Llama 3 Youko 70B Instruct | 0.952 | 0.625 | 0.584 | 0.921 | 0.198 | 0.720 | 0.263 | 0.226 | 0.718 | 0.610 | 0.582 |
Llama-3.1-70B-Japanese-Instruct-24070 | 0.956 | 0.647 | 0.660 | 0.919 | 0.156 | 0.748 | 0.290 | 0.241 | 0.723 | 0.627 | 0.597 |
Llama 3 heron brain 70B v0.3 | 0.965 | 0.652 | 0.679 | 0.922 | 0.261 | 0.772 | 0.309 | 0.258 | 0.707 | 0.623 | 0.615 |
Llama 3 Swallow 70B Instruct | 0.963 | 0.627 | 0.598 | 0.921 | 0.139 | 0.672 | 0.272 | 0.255 | 0.657 | 0.608 | 0.571 |
Llama 3.1 Swallow 70B Instruct v0.1 | 0.962 | 0.621 | 0.660 | 0.924 | 0.192 | 0.776 | 0.312 | 0.259 | 0.711 | 0.468 | 0.588 |
Llama 3.1 Swallow 70B Instruct v0.3 | 0.964 | 0.632 | 0.654 | 0.911 | 0.196 | 0.772 | 0.305 | 0.257 | 0.690 | 0.596 | 0.598 |
Llama 3.3 Swallow 70B Instruct v0.4 | 0.981 | 0.618 | 0.662 | 0.907 | 0.162 | 0.812 | 0.319 | 0.261 | 0.707 | 0.700 | 0.613 |
Qwen2-72B-Instruct | 0.963 | 0.628 | 0.557 | 0.920 | 0.166 | 0.780 | 0.260 | 0.232 | 0.771 | 0.701 | 0.598 |
Qwen2.5-72B-Instruct | 0.970 | 0.569 | 0.582 | 0.738 | 0.170 | 0.840 | 0.227 | 0.218 | 0.789 | 0.634 | 0.574 |
GPT-3.5 (gpt-3.5-turbo-0125) | 0.922 | 0.456 | 0.447 | 0.893 | 0.215 | 0.572 | 0.287 | 0.243 | 0.499 | 0.616 | 0.515 |
GPT-4o (gpt-4o-2024-08-06) | 0.982 | 0.731 | 0.709 | 0.889 | 0.170 | 0.864 | 0.314 | 0.254 | 0.797 | 0.752 | 0.646 |
GPT-4o-mini (gpt-4o-mini-2024-07-18) | 0.961 | 0.464 | 0.591 | 0.902 | 0.160 | 0.832 | 0.299 | 0.241 | 0.679 | 0.675 | 0.580 |
英語タスク
モデル | OpenBookQA | TriviaQA | HellaSWAG | SQuAD2.0 | XWINO | MMLU | GSM8K | MATH | BBH | HumanEval | En Avg |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 4-shot | 5-shot | 4-shot | 4-shot | 3-shot | 0-shot | ||
Acc | EM acc | Acc | EM acc | Acc | Acc | EM acc | CoT EM Acc | CoT EM Acc | pass@1 | ||
Llama 3 70B Instruct | 0.438 | 0.800 | 0.655 | 0.696 | 0.914 | 0.800 | 0.909 | 0.474 | 0.833 | 0.774 | 0.729 |
Llama 3.1 70B Instruct | 0.426 | 0.821 | 0.662 | 0.660 | 0.917 | 0.822 | 0.876 | 0.560 | 0.842 | 0.794 | 0.738 |
Llama 3.3 70B Instruct | 0.426 | 0.817 | 0.667 | 0.684 | 0.917 | 0.824 | 0.890 | 0.706 | 0.853 | 0.834 | 0.762 |
Llama 3 Youko 70B Instruct | 0.454 | 0.797 | 0.686 | 0.659 | 0.915 | 0.805 | 0.892 | 0.434 | 0.780 | 0.662 | 0.708 |
Llama-3.1-70B-Japanese-Instruct-24070 | 0.422 | 0.810 | 0.647 | 0.663 | 0.917 | 0.807 | 0.889 | 0.528 | 0.823 | 0.746 | 0.725 |
Llama 3 heron brain 70B v0.3 | 0.446 | 0.811 | 0.668 | 0.706 | 0.919 | 0.790 | 0.877 | 0.508 | 0.759 | 0.668 | 0.715 |
Llama 3 Swallow 70B Instruct | 0.446 | 0.818 | 0.676 | 0.681 | 0.923 | 0.789 | 0.868 | 0.460 | 0.816 | 0.680 | 0.716 |
Llama 3.1 Swallow 70B Instruct v0.1 | 0.446 | 0.815 | 0.683 | 0.681 | 0.917 | 0.787 | 0.884 | 0.474 | 0.848 | 0.568 | 0.710 |
Llama 3.1 Swallow 70B Instruct v0.3 | 0.454 | 0.825 | 0.692 | 0.647 | 0.919 | 0.777 | 0.872 | 0.458 | 0.816 | 0.643 | 0.710 |
Llama 3.3 Swallow 70B Instruct v0.4 | 0.448 | 0.817 | 0.686 | 0.654 | 0.912 | 0.803 | 0.908 | 0.566 | 0.812 | 0.750 | 0.736 |
Qwen2-72B-Instruct | 0.444 | 0.759 | 0.685 | 0.685 | 0.911 | 0.839 | 0.848 | 0.634 | 0.193 | 0.688 | 0.669 |
Qwen2.5-72B-Instruct | 0.454 | 0.676 | 0.706 | 0.677 | 0.889 | 0.848 | 0.904 | 0.770 | 0.375 | 0.614 | 0.691 |
評価ベンチマーク
評価スクリプトはswallow-llm/swallow-evaluationで公開されており、v202411
タグが付けられています。
MT-Bench JA
マルチターン対話能力を評価するためにJapanese MT-Benchを使用し、以下の設定で実施しました:
- 実装: FastChat [Zheng+, 2023] (コミット #e86e70d0)
- 質問: Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v4
- 参照回答: Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v2の修正版。誤った回答を検証・修正しました。この修正版はswallow-evaluation Ver. 202411と共に公開されています。
- 評価プロンプト: Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
- 評価者:
gpt-4o-2024-08-06
- スコアリング: 0-1範囲に正規化した絶対スケールで、5回の平均値
日本語評価ベンチマーク
llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(コミット #9b42d41)、Code Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通り:
- 多肢選択式質問応答(JCommonsenseQA [栗原ら, 2022])
- 自由記述式質問応答(JEMHopQA [石井ら, 2024])
- 自由記述式質問応答(NIILC [関根, 2003])
- 機械読解(JSQuAD [栗原ら, 2022])
- 自動要約(XL-Sum [Hasanら, 2021])
- 機械翻訳(WMT2020 ja-en [Barraultら, 2020])
- 機械翻訳(WMT2020 en-ja [Barraultら, 2020])
- 数学的推論(MGSM [Shiら, 2023])
- 学術試験(JMMLU [尹ら, 2024])
- コード生成(JHumanEval [佐藤ら, 2024])
英語評価ベンチマーク
Language Model Evaluation Harness(v.0.4.2)とCode Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通り:
- 多肢選択式質問応答(OpenBookQA [Mihaylovら, 2018])
- 自由記述式質問応答(TriviaQA [Joshiら, 2017])
- 機械読解(SQuAD2 [Rajpurkarら, 2018])
- 常識推論(XWINO [Tikhonov and Ryabinin, 2021])
- 自然言語推論(HellaSwag [Zellersら, 2019])
- 数学的推論(GSM8K [Cobbeら, 2021])
- 数学的推論(MATH [Hendrycksら, 2022][Lightmanら, 2024])
- 推論(BBH (BIG-Bench-Hard) [Suzgunら, 2023])
- 学術試験(MMLU [Hendrycksら, 2021])
- コード生成(HumanEval [Chenら, 2021])
使用方法
pip install vllm
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=4,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)
message = [
{"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
{
"role": "user",
"content": "日本の冬から春の移り変わりについて教えてください",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
学習データセット
命令チューニング
命令チューニングには以下のデータセットを使用しました。
- Gemma-2-LMSYS-Chat-1M-Synth
- lmsys-chat-1m [Zhang+, ICLR24])から合成・派生したマルチターン日本語命令データセット
- 初回ユーザー命令はDeepL(機械翻訳)で日本語に翻訳され、アシスタント応答はgemma-2-27b-itで生成されました。同じモデルgemma-2-27b-itがリジェクトサンプリング(n=6)の評価者として使用されました。
- 2回目のユーザー命令と応答はgemma-2-27b-itで合成されました。同じモデルが2回目の応答品質を1-10の範囲でスコア付けし、スコアが9未満の応答と対応する命令はリジェクトされました。
個人を特定できる情報(PII)やテンプレートベースのユーザー命令を含む会話は削除されました。重複する命令も削除されました。
- Swallow-Magpie-Ultra-v0.1
filtered-magpie-ultra-en
データセットの日本語版で、gemma-2-27b-itによって日本語に翻訳されました。
- Swallow-Gemma-Magpie-v0.1
- ゼロから生成された日本語合成命令チューニングデータセットで、gemma-2-27b-itによって生成されました。各トピックに特化したプロンプトでユーザー命令が作成され、これらの命令に対するアシスタント応答が生成されました。
- 会話は品質と長さでヒューリスティックにフィルタリングされました。その後、gemma-2-27b-itが各会話の品質を1-10の範囲でスコア付けし、スコア<=7の会話はリジェクトされました。
- Swallow-Code-v0.3-Instruct-style
- 英語コード生成用の合成命令データセットで、Swallow Code v0.3をLlama-3.3-70B-Instructを使用して命令フォロー形式に再構築しました。
リスクと制限事項
ここで公開されているモデルはまだ研究開発の初期段階にあり、出力が人間の意図や安全上の配慮に沿うようにチューニングされていません。
謝辞
Llama 3.3を寛大なオープンライセンスで公開してくださったMeta Researchに感謝します。
Llama 3.3 Swallowプロジェクトの学習を可能にしたSageMaker HyperPodへのアクセスを提供してくださったAmazon Web Services (AWS)に感謝します。
以下の支援を受けました:
- AISTプロジェクト: 「物理ドメインにおける生成AIの基盤モデルの研究開発」
- NEDOプロジェクト: 「熟練者の視点に基づく設計リスク評価業務の判断を支援する人工知能応用技術の開発」(JPNP18002)「次世代人工知能・ロボットの中核となる統合技術の開発」の一環
- MEXTプロジェクト: 「生成AIモデルの透明性と信頼性を確保する研究開発拠点の形成」
- AISTプログラム: 大規模生成AI開発支援プログラム
ライセンス
META LLAMA 3.3 COMMUNITY LICENSEおよびGemma利用規約
著者
チームメンバーは以下の通りです:
- 東京工業大学岡崎研究室から:
- 東京工業大学横田研究室から:
- 産業技術総合研究所人工知能研究センターから:
引用方法
私たちの仕事が役立った場合は、以下の論文を引用してください。
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@misc{ma:arxiv2025,
title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models},
author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
year={2025},
eprint={2503.23714},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.23714},
}
参考文献
@misc{dubey2024llama3herdmodels,
title={The Llama 3 Herd of Models},
author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
year={



