Llama-3.3-Swallow-70B-Instruct-v0.4开源大模型 - 兼顾英语与增强日语交流应用

首页

Llama 3.3 Swallow 70B Instruct V0.4

由 tokyotech-llm 开发

Llama 3.3 Swallow是基于Meta Llama 3.3模型进行持续预训练的大型语言模型(70B)，增强了日语能力同时保留原有英语能力。

大型语言模型

Transformers

支持多种语言#日语增强LLM #70B大参数 #多语言文本生成

下载量 874

发布时间 : 4/25/2025

模型简介

通过对Llama 3.3模型进行持续预训练构建的日语增强型大语言模型，适用于双语文本生成任务。

模型特点

双语能力增强

在保留Llama 3.3原有英语能力的基础上，显著提升了日语处理能力

大规模持续预训练

使用约3150亿个标记的日语和英语数据进行持续预训练

指令调优优化

通过对日语构建的合成数据进行监督微调(SFT)，提升指令跟随能力

模型能力

日语文本生成

英语文本生成

双语翻译

指令跟随

代码生成

使用案例

语言处理

日语内容创作

生成高质量的日语文章、报告等

在JMT-Bench JA评估中获得0.772平均分

英日双语翻译

提供英语和日语之间的互译服务

WMT20翻译任务中表现良好

教育

日语学习辅助

为日语学习者提供语法解释和练习生成

🚀 Llama 3.3 Swallow - 基于Llama构建

Llama 3.3 Swallow是一个700亿参数的大语言模型，它在Meta Llama 3.3模型的基础上进行持续预训练而构建。Llama 3.3 Swallow在保留英文能力的同时，增强了原Llama 3.3的日语能力。我们使用了大约3150亿个从大型日语网络语料库（Swallow语料库版本2）、日语和英文维基百科文章以及数学和编码内容等采样得到的标记进行持续预训练（详见基础模型的训练数据集部分）。指令微调模型（Instruct）是通过在专门为日语构建的合成数据上进行有监督微调（SFT）而构建的。查看Swallow模型索引部分，以找到其他模型变体。

🚀 快速开始

安装依赖

pip install vllm

代码示例

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "日本の冬から春の移り変わりについて教えてください",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

✨ 主要特性

多语言能力：在保留英文能力的同时，增强了日语能力。
持续预训练：基于Meta Llama 3.3模型进行持续预训练。
指令微调：通过在专门为日语构建的合成数据上进行有监督微调，构建指令微调模型。

📦 安装指南

pip install vllm

💻 使用示例

基础用法

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "日本の冬から春の移り変わりについて教えてください",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

📚 详细文档

发布历史

2025年3月10日：发布Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
2024年12月30日：发布Llama-3.1-Swallow-70B-Instruct-v0.3。
2024年12月23日：发布Llama-3.1-Swallow-8B-Instruct-v0.3。
2024年11月11日：发布Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
2024年10月8日：发布Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace
70B	🤗 HuggingFace	🤗 HuggingFace			🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace

模型详情

属性	详情
模型类型	请参考Llama 3.1 MODEL_CARD了解模型架构详情。
语言	日语、英语
库	Megatron-LM
分词器	请参考Llama 3.1博客了解分词器详情。
联系方式	swallow[at]nlp.c.titech.ac.jp

模型性能

MT - Bench JA

模型	编码	提取	人文	数学	推理	角色扮演	科学技术	写作	JMT平均
Llama 3 70B Instruct	0.588	0.884	0.715	0.637	0.487	0.594	0.598	0.619	0.640
Llama 3.1 70B Instruct	0.691	0.848	0.730	0.669	0.618	0.699	0.699	0.694	0.706
Llama 3.3 70B Instruct	0.707	0.865	0.757	0.720	0.635	0.773	0.706	0.733	0.737
Llama 3 Youko 70B Instruct	0.607	0.894	0.834	0.609	0.673	0.790	0.764	0.829	0.750
Llama-3.1-70B-Japanese-Instruct-24070	0.683	0.827	0.824	0.749	0.643	0.818	0.715	0.751	0.751
Llama 3 heron brain 70B v0.3	0.510	0.870	0.776	0.680	0.513	0.727	0.692	0.693	0.683
Llama 3 Swallow 70B Instruct	0.633	0.823	0.601	0.521	0.482	0.622	0.635	0.630	0.618
Llama 3.1 Swallow 70B Instruct v0.1	0.654	0.792	0.768	0.704	0.573	0.682	0.653	0.704	0.691
Llama 3.1 Swallow 70B Instruct v0.3	0.678	0.820	0.867	0.776	0.570	0.816	0.769	0.852	0.769
Llama 3.3 Swallow 70B Instruct v0.4	0.705	0.820	0.870	0.730	0.623	0.811	0.781	0.832	0.772
Qwen2 - 72B - Instruct	0.632	0.800	0.842	0.688	0.616	0.824	0.797	0.846	0.756
Qwen2.5 - 72B - Instruct	0.795	0.860	0.865	0.857	0.784	0.863	0.804	0.854	0.835
GPT - 3.5 (gpt - 3.5 - turbo - 0125)	0.693	0.789	0.773	0.665	0.462	0.728	0.644	0.775	0.691
GPT - 4o (gpt - 4o - 2024 - 08 - 06)	0.855	0.926	0.880	0.872	0.706	0.862	0.838	0.849	0.848
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18)	0.825	0.865	0.857	0.843	0.665	0.846	0.855	0.840	0.824

日语任务

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL - Sum	MGSM	WMT20 - en - ja	WMT20 - ja - en	JMMLU	JHumanEval	Ja平均
	4 - shot	4 - shot	4 - shot	4 - shot	1 - shot	4 - shot	4 - shot	4 - shot	5 - shot	0 - shot
	EM准确率	字符F1	字符F1	字符F1	ROUGE - 2	EM准确率	BLEU	BLEU	EM准确率	pass@1
Llama 3 70B Instruct	0.940	0.615	0.557	0.913	0.191	0.716	0.269	0.234	0.680	0.662	0.578
Llama 3.1 70B Instruct	0.950	0.635	0.579	0.921	0.178	0.732	0.279	0.247	0.733	0.696	0.595
Llama 3.3 70B Instruct	0.941	0.640	0.570	0.893	0.179	0.784	0.278	0.243	0.735	0.744	0.601
Llama 3 Youko 70B Instruct	0.952	0.625	0.584	0.921	0.198	0.720	0.263	0.226	0.718	0.610	0.582
Llama - 3.1 - 70B - Japanese - Instruct - 24070	0.956	0.647	0.660	0.919	0.156	0.748	0.290	0.241	0.723	0.627	0.597
Llama 3 heron brain 70B v0.3	0.965	0.652	0.679	0.922	0.261	0.772	0.309	0.258	0.707	0.623	0.615
Llama 3 Swallow 70B Instruct	0.963	0.627	0.598	0.921	0.139	0.672	0.272	0.255	0.657	0.608	0.571
Llama 3.1 Swallow 70B Instruct v0.1	0.962	0.621	0.660	0.924	0.192	0.776	0.312	0.259	0.711	0.468	0.588
Llama 3.1 Swallow 70B Instruct v0.3	0.964	0.632	0.654	0.911	0.196	0.772	0.305	0.257	0.690	0.596	0.598
Llama 3.3 Swallow 70B Instruct v0.4	0.981	0.618	0.662	0.907	0.162	0.812	0.319	0.261	0.707	0.700	0.613
Qwen2 - 72B - Instruct	0.963	0.628	0.557	0.920	0.166	0.780	0.260	0.232	0.771	0.701	0.598
Qwen2.5 - 72B - Instruct	0.970	0.569	0.582	0.738	0.170	0.840	0.227	0.218	0.789	0.634	0.574
GPT - 3.5 (gpt - 3.5 - turbo - 0125)	0.922	0.456	0.447	0.893	0.215	0.572	0.287	0.243	0.499	0.616	0.515
GPT - 4o (gpt - 4o - 2024 - 08 - 06)	0.982	0.731	0.709	0.889	0.170	0.864	0.314	0.254	0.797	0.752	0.646
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18)	0.961	0.464	0.591	0.902	0.160	0.832	0.299	0.241	0.679	0.675	0.580

英语任务

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	En平均
	4 - shot	4 - shot	4 - shot	4 - shot	4 - shot	5 - shot	4 - shot	4 - shot	3 - shot	0 - shot
	准确率	EM准确率	准确率	EM准确率	准确率	准确率	EM准确率	CoT EM准确率	CoT EM准确率	pass@1
Llama 3 70B Instruct	0.438	0.800	0.655	0.696	0.914	0.800	0.909	0.474	0.833	0.774	0.729
Llama 3.1 70B Instruct	0.426	0.821	0.662	0.660	0.917	0.822	0.876	0.560	0.842	0.794	0.738
Llama 3.3 70B Instruct	0.426	0.817	0.667	0.684	0.917	0.824	0.890	0.706	0.853	0.834	0.762
Llama 3 Youko 70B Instruct	0.454	0.797	0.686	0.659	0.915	0.805	0.892	0.434	0.780	0.662	0.708
Llama - 3.1 - 70B - Japanese - Instruct - 24070	0.422	0.810	0.647	0.663	0.917	0.807	0.889	0.528	0.823	0.746	0.725
Llama 3 heron brain 70B v0.3	0.446	0.811	0.668	0.706	0.919	0.790	0.877	0.508	0.759	0.668	0.715
Llama 3 Swallow 70B Instruct	0.446	0.818	0.676	0.681	0.923	0.789	0.868	0.460	0.816	0.680	0.716
Llama 3.1 Swallow 70B Instruct v0.1	0.446	0.815	0.683	0.681	0.917	0.787	0.884	0.474	0.848	0.568	0.710
Llama 3.1 Swallow 70B Instruct v0.3	0.454	0.825	0.692	0.647	0.919	0.777	0.872	0.458	0.816	0.643	0.710
Llama 3.3 Swallow 70B Instruct v0.4	0.448	0.817	0.686	0.654	0.912	0.803	0.908	0.566	0.812	0.750	0.736
Qwen2 - 72B - Instruct	0.444	0.759	0.685	0.685	0.911	0.839	0.848	0.634	0.193	0.688	0.669
Qwen2.5 - 72B - Instruct	0.454	0.676	0.706	0.677	0.889	0.848	0.904	0.770	0.375	0.614	0.691

评估基准

MT - Bench JA

我们使用[日语MT - Bench](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_question)来评估多轮对话能力，设置如下：

实现：FastChat [Zheng +, 2023]（提交编号#e86e70d0）
问题：[Nejumi LLM - Leaderboard NEO, mtbench_ja_question_v4](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_question/v3)
参考答案：[Nejumi LLM - Leaderboard NEO, mtbench_ja_referenceanswer_v2](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_referenceanswer/v1)的修订版，我们在其中验证并纠正了错误答案。此修订版已随[swallow - evaluation](https://github.com/swallow - llm/swallow - evaluation) 202411版本发布。
评判提示：[Nejumi LLM - Leaderboard NEO, mtbench_ja_prompt_v1](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_prompt/v1)
评判器：gpt - 4o - 2024 - 08 - 06
评分：绝对尺度归一化到0 - 1范围，五次运行取平均值。

日语评估基准

我们使用了llm - jp - eval(v1.3.0)、JP Language Model Evaluation Harness（提交编号#9b42d41）和Code Generation LM Evaluation Harness（提交编号#0261c52）。详情如下：

多项选择题回答（JCommonsenseQA [Kurihara等人, 2022]）
开放式问题回答（JEMHopQA [Ishii等人, 2024]）
开放式问题回答（NIILC [関根, 2003]）
机器阅读理解（JSQuAD [Kurihara等人, 2022]）
自动摘要（XL - Sum [Hasan等人, 2021]）
机器翻译（WMT2020 ja - en [Barrault等人, 2020]）
机器翻译（WMT2020 en - ja [Barrault等人, 2020]）
数学推理（MGSM [Shi等人, 2023]）
学术考试（JMMLU [尹ら, 2024]）
代码生成（JHumanEval [佐藤ら, 2024]）

英语评估基准

我们使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness（提交编号#0261c52）。详情如下：

多项选择题回答（OpenBookQA [Mihaylov等人, 2018]）
开放式问题回答（TriviaQA [Joshi等人, 2017]）
机器阅读理解（SQuAD2 [Rajpurkar等人, 2018]）
常识推理（XWINO [Tikhonov和Ryabinin, 2021]）
自然语言推理（HellaSwag [Zellers等人, 2019]）
数学推理（GSM8K [Cobbe等人, 2021]）
数学推理（MATH [Hendrycks等人, 2022][Lightman等人, 2024]）
推理（BBH (BIG - Bench - Hard) [Suzgun等人, 2023]）
学术考试（MMLU [Hendrycks等人, 2021]）
代码生成（HumanEval [Chen等人, 2021]）

训练数据集

指令微调

以下数据集用于指令微调：

[Gemma - 2 - LMSYS - Chat - 1M - Synth](https://huggingface.co/datasets/tokyotech - llm/lmsys - chat - 1m - synth)
- 从[lmsys - chat - 1m](https://huggingface.co/datasets/lmsys/lmsys - chat - 1m)合成和派生的多轮日语指令数据集 [Zhang +, ICLR24]。
- 第一轮用户指令通过DeepL（机器翻译）翻译成日语，助手回复使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)生成。同一模型，即[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)作为拒绝采样的评判器（n = 6）。
- 第二轮用户指令和回复使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)合成。同一模型对第二轮回复的质量进行1 - 10分的评分。得分低于9分的第二轮回复及其对应的指令被拒绝。
- 包含个人身份信息（PII）和基于模板的用户指令的对话被移除。重复的指令被移除。
[Swallow - Magpie - Ultra - v0.1](https://huggingface.co/datasets/tokyotech - llm/swallow - magpie - ultra - v0.1)
- filtered - magpie - ultra - en数据集的日语变体，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)翻译成日语。
[Swallow - Gemma - Magpie - v0.1](https://huggingface.co/datasets/tokyotech - llm/swallow - gemma - magpie - v0.1)
- 一个全新的日语合成指令微调数据集，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)生成。用户指令使用针对每个主题的特定提示创建，助手回复针对这些指令生成。
- 对话根据质量和长度进行启发式过滤。然后，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)对每个对话的质量进行1 - 10分的评分。得分小于等于7分的对话被拒绝。
Swallow - Code - v0.3 - Instruct - style
- 一个用于英文代码生成的合成指令数据集，使用[Llama - 3.3 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.3 - 70B - Instruct)将Swallow Code v0.3重构为指令跟随格式。

🔧 技术细节

模型通过在Meta Llama 3.3模型基础上进行持续预训练，使用约3150亿个从多种来源采样的标记，在保留英文能力的同时增强了日语能力。指令微调模型通过在专门为日语构建的合成数据上进行有监督微调构建。

📄 许可证

META LLAMA 3.3 COMMUNITY LICENSE和Gemma使用条款

致谢

我们感谢Meta Research以慷慨的开放许可证发布Llama 3.3。

我们感谢亚马逊网络服务（AWS）提供对SageMaker HyperPod的访问权限，这使得Llama 3.3 Swallow项目的训练成为可能。

我们获得了以下各种支持：

AIST项目：“物理领域生成式AI基础模型的研究与开发”
NEDO项目：“基于熟练人员视角的设计风险评估工作中支持判断的人工智能应用技术开发”（JPNP18002），属于“下一代人工智能和机器人核心集成技术开发”项目
MEXT项目：“形成确保生成式AI模型透明度和可靠性的研发中心”
AIST计划：大型生成式AI开发支持计划

作者

以下是团队成员：

来自东京工业大学科学研究所冈崎实验室的成员：
- 冈崎直明
- [水树栄](https://s - mizuki - nlp.github.io/)
- 马悠米
- 前田航辉
- [服部駆](https://aya - se.vercel.app/)
- 大井正成
- 岛田日成
- 塩谷大平
- [斋藤浩志郎](https://sites.google.com/view/koshiro - saito)
来自东京工业大学科学研究所横田实验室的成员：
- 横田莉央
- 藤井和树
- 中村大史
- [冈本匠](https://www.linkedin.com/in/takumi - okamoto)
- 石田重树
- [田岛悠人](https://www.linkedin.com/in/yukito - tajima - 51bbb2299)
- 川村正树
来自日本产业技术综合研究所人工智能研究中心的成员：
- 高村宏也

如何引用

如果您觉得我们的工作有帮助，请随意引用以下论文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models}, 
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714}, 
}

参考文献

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}