Llama 3.3 Swallow 70B Instruct V0.4

tokyotech-llmによって開発

Llama 3.3 SwallowはMeta Llama 3.3モデルを基に継続的事前学習を行った大規模言語モデル(70B)で、日本語能力を強化しつつ元の英語能力を保持しています。

大規模言語モデル

Transformers

複数言語対応#日本語強化LLM #70B大規模パラメータ #多言語テキスト生成

ダウンロード数 874

リリース時間 : 4/25/2025

モデル概要

Llama 3.3モデルを継続的事前学習して構築した日本語強化型大規模言語モデルで、バイリンガルテキスト生成タスクに適しています。

モデル特徴

バイリンガル能力強化

Llama 3.3の元の英語能力を保持しつつ、日本語処理能力を大幅に向上させました

大規模継続的事前学習

約3150億トークンの日本語と英語データを使用して継続的事前学習を実施

命令チューニング最適化

日本語で構築した合成データを用いた教師あり微調整(SFT)により、命令追従能力を向上

モデル能力

日本語テキスト生成

英語テキスト生成

バイリンガル翻訳

命令追従

コード生成

使用事例

言語処理

日本語コンテンツ作成

高品質な日本語記事やレポートなどを生成

JMT-Bench JA評価で0.772の平均スコアを獲得

英日バイリンガル翻訳

英語と日本語間の相互翻訳サービスを提供

WMT20翻訳タスクで良好なパフォーマンス

教育

日本語学習支援

日本語学習者向けに文法解説や練習問題を生成

language:

en
ja library_name: transformers pipeline_tag: text-generation license:
llama3.3
gemma model_type: llama datasets:
tokyotech-llm/lmsys-chat-1m-synth
tokyotech-llm/swallow-magpie-ultra-v0.1
tokyotech-llm/swallow-gemma-magpie-v0.1
lmsys/lmsys-chat-1m
argilla/magpie-ultra-v0.1

Llama 3.3 Swallow - Llamaベース構築

Llama 3.3 SwallowはMeta Llama 3.3モデルを継続事前学習して構築された大規模言語モデル(70B)です。 Llama 3.3 Swallowは元のLlama 3.3の英語能力を保持しつつ、日本語能力を強化しています。継続事前学習には、大規模な日本語ウェブコーパス(Swallow Corpus Version 2)からサンプリングした約3150億トークン、日本語・英語Wikipedia記事、数学・プログラミングコンテンツなどを使用しました(ベースモデルのTraining Datasetsセクション参照)。命令チューニングモデル(Instruct)は、日本語向けに特別に構築された合成データを用いた教師ありファインチューニング(SFT)で構築されました。他のモデルバリアントについてはSwallow Model Indexセクションをご覧ください。

リリース履歴

2025年3月10日: Llama-3.3-Swallow-70B-Instruct-v0.4とLlama-3.3-Swallow-70B-v0.4をリリース
2024年12月30日: Llama-3.1-Swallow-70B-Instruct-v0.3をリリース
2024年12月23日: Llama-3.1-Swallow-8B-Instruct-v0.3をリリース
2024年11月11日: Llama-3.1-Swallow-8B-v0.2とLlama-3.1-Swallow-8B-Instruct-v0.2をリリース
2024年10月8日: Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1、Llama-3.1-Swallow-70B-Instruct-v0.1をリリース

Swallowモデルインデックス

モデル	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace
70B	🤗 HuggingFace	🤗 Huggingface			🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace

ウェブサイトhttps://swallow-llm.github.io/では、Swallowチームが開発した大規模言語モデルを提供しています。

モデル詳細

モデルタイプ: モデルアーキテクチャの詳細についてはLlama 3.1 MODEL_CARDを参照してください。
対応言語: 日本語英語
ライブラリ: Megatron-LM
トークナイザー: トークナイザーの詳細についてはLlama 3.1ブログを参照してください。
連絡先: swallow[at]nlp.c.titech.ac.jp

モデル性能

MT-Bench JA

モデル	coding	extraction	humanities	math	reasoning	roleplay	stem	writing	JMT Avg
Llama 3 70B Instruct	0.588	0.884	0.715	0.637	0.487	0.594	0.598	0.619	0.640
Llama 3.1 70B Instruct	0.691	0.848	0.730	0.669	0.618	0.699	0.699	0.694	0.706
Llama 3.3 70B Instruct	0.707	0.865	0.757	0.720	0.635	0.773	0.706	0.733	0.737
Llama 3 Youko 70B Instruct	0.607	0.894	0.834	0.609	0.673	0.790	0.764	0.829	0.750
Llama-3.1-70B-Japanese-Instruct-24070	0.683	0.827	0.824	0.749	0.643	0.818	0.715	0.751	0.751
Llama 3 heron brain 70B v0.3	0.510	0.870	0.776	0.680	0.513	0.727	0.692	0.693	0.683
Llama 3 Swallow 70B Instruct	0.633	0.823	0.601	0.521	0.482	0.622	0.635	0.630	0.618
Llama 3.1 Swallow 70B Instruct v0.1	0.654	0.792	0.768	0.704	0.573	0.682	0.653	0.704	0.691
Llama 3.1 Swallow 70B Instruct v0.3	0.678	0.820	0.867	0.776	0.570	0.816	0.769	0.852	0.769
Llama 3.3 Swallow 70B Instruct v0.4	0.705	0.820	0.870	0.730	0.623	0.811	0.781	0.832	0.772
Qwen2-72B-Instruct	0.632	0.800	0.842	0.688	0.616	0.824	0.797	0.846	0.756
Qwen2.5-72B-Instruct	0.795	0.860	0.865	0.857	0.784	0.863	0.804	0.854	0.835
GPT-3.5 (gpt-3.5-turbo-0125)	0.693	0.789	0.773	0.665	0.462	0.728	0.644	0.775	0.691
GPT-4o (gpt-4o-2024-08-06)	0.855	0.926	0.880	0.872	0.706	0.862	0.838	0.849	0.848
GPT-4o-mini (gpt-4o-mini-2024-07-18)	0.825	0.865	0.857	0.843	0.665	0.846	0.855	0.840	0.824

日本語タスク

モデル	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	Ja Avg
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM acc	Char-F1	Char-F1	Char-F1	ROUGE-2	EM acc	BLEU	BLEU	EM acc	pass@1
Llama 3 70B Instruct	0.940	0.615	0.557	0.913	0.191	0.716	0.269	0.234	0.680	0.662	0.578
Llama 3.1 70B Instruct	0.950	0.635	0.579	0.921	0.178	0.732	0.279	0.247	0.733	0.696	0.595
Llama 3.3 70B Instruct	0.941	0.640	0.570	0.893	0.179	0.784	0.278	0.243	0.735	0.744	0.601
Llama 3 Youko 70B Instruct	0.952	0.625	0.584	0.921	0.198	0.720	0.263	0.226	0.718	0.610	0.582
Llama-3.1-70B-Japanese-Instruct-24070	0.956	0.647	0.660	0.919	0.156	0.748	0.290	0.241	0.723	0.627	0.597
Llama 3 heron brain 70B v0.3	0.965	0.652	0.679	0.922	0.261	0.772	0.309	0.258	0.707	0.623	0.615
Llama 3 Swallow 70B Instruct	0.963	0.627	0.598	0.921	0.139	0.672	0.272	0.255	0.657	0.608	0.571
Llama 3.1 Swallow 70B Instruct v0.1	0.962	0.621	0.660	0.924	0.192	0.776	0.312	0.259	0.711	0.468	0.588
Llama 3.1 Swallow 70B Instruct v0.3	0.964	0.632	0.654	0.911	0.196	0.772	0.305	0.257	0.690	0.596	0.598
Llama 3.3 Swallow 70B Instruct v0.4	0.981	0.618	0.662	0.907	0.162	0.812	0.319	0.261	0.707	0.700	0.613
Qwen2-72B-Instruct	0.963	0.628	0.557	0.920	0.166	0.780	0.260	0.232	0.771	0.701	0.598
Qwen2.5-72B-Instruct	0.970	0.569	0.582	0.738	0.170	0.840	0.227	0.218	0.789	0.634	0.574
GPT-3.5 (gpt-3.5-turbo-0125)	0.922	0.456	0.447	0.893	0.215	0.572	0.287	0.243	0.499	0.616	0.515
GPT-4o (gpt-4o-2024-08-06)	0.982	0.731	0.709	0.889	0.170	0.864	0.314	0.254	0.797	0.752	0.646
GPT-4o-mini (gpt-4o-mini-2024-07-18)	0.961	0.464	0.591	0.902	0.160	0.832	0.299	0.241	0.679	0.675	0.580

英語タスク

モデル	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	En Avg
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	Acc	EM acc	Acc	EM acc	Acc	Acc	EM acc	CoT EM Acc	CoT EM Acc	pass@1
Llama 3 70B Instruct	0.438	0.800	0.655	0.696	0.914	0.800	0.909	0.474	0.833	0.774	0.729
Llama 3.1 70B Instruct	0.426	0.821	0.662	0.660	0.917	0.822	0.876	0.560	0.842	0.794	0.738
Llama 3.3 70B Instruct	0.426	0.817	0.667	0.684	0.917	0.824	0.890	0.706	0.853	0.834	0.762
Llama 3 Youko 70B Instruct	0.454	0.797	0.686	0.659	0.915	0.805	0.892	0.434	0.780	0.662	0.708
Llama-3.1-70B-Japanese-Instruct-24070	0.422	0.810	0.647	0.663	0.917	0.807	0.889	0.528	0.823	0.746	0.725
Llama 3 heron brain 70B v0.3	0.446	0.811	0.668	0.706	0.919	0.790	0.877	0.508	0.759	0.668	0.715
Llama 3 Swallow 70B Instruct	0.446	0.818	0.676	0.681	0.923	0.789	0.868	0.460	0.816	0.680	0.716
Llama 3.1 Swallow 70B Instruct v0.1	0.446	0.815	0.683	0.681	0.917	0.787	0.884	0.474	0.848	0.568	0.710
Llama 3.1 Swallow 70B Instruct v0.3	0.454	0.825	0.692	0.647	0.919	0.777	0.872	0.458	0.816	0.643	0.710
Llama 3.3 Swallow 70B Instruct v0.4	0.448	0.817	0.686	0.654	0.912	0.803	0.908	0.566	0.812	0.750	0.736
Qwen2-72B-Instruct	0.444	0.759	0.685	0.685	0.911	0.839	0.848	0.634	0.193	0.688	0.669
Qwen2.5-72B-Instruct	0.454	0.676	0.706	0.677	0.889	0.848	0.904	0.770	0.375	0.614	0.691

評価ベンチマーク

評価スクリプトはswallow-llm/swallow-evaluationで公開されており、v202411タグが付けられています。

MT-Bench JA

マルチターン対話能力を評価するためにJapanese MT-Benchを使用し、以下の設定で実施しました:

実装: FastChat [Zheng+, 2023] (コミット #e86e70d0)
質問: Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v4
参照回答: Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v2の修正版。誤った回答を検証・修正しました。この修正版はswallow-evaluation Ver. 202411と共に公開されています。
評価プロンプト: Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
評価者: gpt-4o-2024-08-06
スコアリング: 0-1範囲に正規化した絶対スケールで、5回の平均値

日本語評価ベンチマーク

llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(コミット #9b42d41)、Code Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通り:

多肢選択式質問応答(JCommonsenseQA [栗原ら, 2022])
自由記述式質問応答(JEMHopQA [石井ら, 2024])
自由記述式質問応答(NIILC [関根, 2003])
機械読解(JSQuAD [栗原ら, 2022])
自動要約(XL-Sum [Hasanら, 2021])
機械翻訳(WMT2020 ja-en [Barraultら, 2020])
機械翻訳(WMT2020 en-ja [Barraultら, 2020])
数学的推論(MGSM [Shiら, 2023])
学術試験(JMMLU [尹ら, 2024])
コード生成(JHumanEval [佐藤ら, 2024])

英語評価ベンチマーク

Language Model Evaluation Harness(v.0.4.2)とCode Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通り:

多肢選択式質問応答(OpenBookQA [Mihaylovら, 2018])
自由記述式質問応答(TriviaQA [Joshiら, 2017])
機械読解(SQuAD2 [Rajpurkarら, 2018])
常識推論(XWINO [Tikhonov and Ryabinin, 2021])
自然言語推論(HellaSwag [Zellersら, 2019])
数学的推論(GSM8K [Cobbeら, 2021])
数学的推論(MATH [Hendrycksら, 2022][Lightmanら, 2024])
推論(BBH (BIG-Bench-Hard) [Suzgunら, 2023])
学術試験(MMLU [Hendrycksら, 2021])
コード生成(HumanEval [Chenら, 2021])

使用方法

pip install vllm

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "日本の冬から春の移り変わりについて教えてください",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

学習データセット

命令チューニング

命令チューニングには以下のデータセットを使用しました。

Gemma-2-LMSYS-Chat-1M-Synth
- lmsys-chat-1m [Zhang+, ICLR24])から合成・派生したマルチターン日本語命令データセット
- 初回ユーザー命令はDeepL(機械翻訳)で日本語に翻訳され、アシスタント応答はgemma-2-27b-itで生成されました。同じモデルgemma-2-27b-itがリジェクトサンプリング(n=6)の評価者として使用されました。
- 2回目のユーザー命令と応答はgemma-2-27b-itで合成されました。同じモデルが2回目の応答品質を1-10の範囲でスコア付けし、スコアが9未満の応答と対応する命令はリジェクトされました。
  個人を特定できる情報(PII)やテンプレートベースのユーザー命令を含む会話は削除されました。重複する命令も削除されました。
Swallow-Magpie-Ultra-v0.1
- filtered-magpie-ultra-enデータセットの日本語版で、gemma-2-27b-itによって日本語に翻訳されました。
Swallow-Gemma-Magpie-v0.1
- ゼロから生成された日本語合成命令チューニングデータセットで、gemma-2-27b-itによって生成されました。各トピックに特化したプロンプトでユーザー命令が作成され、これらの命令に対するアシスタント応答が生成されました。
- 会話は品質と長さでヒューリスティックにフィルタリングされました。その後、gemma-2-27b-itが各会話の品質を1-10の範囲でスコア付けし、スコア<=7の会話はリジェクトされました。
Swallow-Code-v0.3-Instruct-style
- 英語コード生成用の合成命令データセットで、Swallow Code v0.3をLlama-3.3-70B-Instructを使用して命令フォロー形式に再構築しました。

リスクと制限事項

ここで公開されているモデルはまだ研究開発の初期段階にあり、出力が人間の意図や安全上の配慮に沿うようにチューニングされていません。

謝辞

Llama 3.3を寛大なオープンライセンスで公開してくださったMeta Researchに感謝します。

Llama 3.3 Swallowプロジェクトの学習を可能にしたSageMaker HyperPodへのアクセスを提供してくださったAmazon Web Services (AWS)に感謝します。

以下の支援を受けました:

AISTプロジェクト: 「物理ドメインにおける生成AIの基盤モデルの研究開発」
NEDOプロジェクト: 「熟練者の視点に基づく設計リスク評価業務の判断を支援する人工知能応用技術の開発」(JPNP18002)「次世代人工知能・ロボットの中核となる統合技術の開発」の一環
MEXTプロジェクト: 「生成AIモデルの透明性と信頼性を確保する研究開発拠点の形成」
AISTプログラム: 大規模生成AI開発支援プログラム

ライセンス

META LLAMA 3.3 COMMUNITY LICENSEおよびGemma利用規約

著者

チームメンバーは以下の通りです:

引用方法

私たちの仕事が役立った場合は、以下の論文を引用してください。

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models}, 
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714}, 
}

参考文献

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={