Llama-3.3-Swallow-70B-Instruct-v0.4開源大模型 - 兼顧英語與增強日語交流應用

首頁

Llama 3.3 Swallow 70B Instruct V0.4

由tokyotech-llm開發

Llama 3.3 Swallow是基於Meta Llama 3.3模型進行持續預訓練的大型語言模型(70B)，增強了日語能力同時保留原有英語能力。

大型語言模型

Transformers

支持多種語言#日語增強LLM #70B大參數 #多語言文本生成

下載量 874

發布時間 : 4/25/2025

模型概述

通過對Llama 3.3模型進行持續預訓練構建的日語增強型大語言模型，適用於雙語文本生成任務。

模型特點

雙語能力增強

在保留Llama 3.3原有英語能力的基礎上，顯著提升了日語處理能力

大規模持續預訓練

使用約3150億個標記的日語和英語數據進行持續預訓練

指令調優優化

通過對日語構建的合成數據進行監督微調(SFT)，提升指令跟隨能力

模型能力

日語文本生成

英語文本生成

雙語翻譯

指令跟隨

代碼生成

使用案例

語言處理

日語內容創作

生成高質量的日語文章、報告等

在JMT-Bench JA評估中獲得0.772平均分

英日雙語翻譯

提供英語和日語之間的互譯服務

WMT20翻譯任務中表現良好

教育

日語學習輔助

為日語學習者提供語法解釋和練習生成

🚀 Llama 3.3 Swallow - 基於Llama構建

Llama 3.3 Swallow是一個700億參數的大語言模型，它在Meta Llama 3.3模型的基礎上進行持續預訓練而構建。Llama 3.3 Swallow在保留英文能力的同時，增強了原Llama 3.3的日語能力。我們使用了大約3150億個從大型日語網絡語料庫（Swallow語料庫版本2）、日語和英文維基百科文章以及數學和編碼內容等採樣得到的標記進行持續預訓練（詳見基礎模型的訓練數據集部分）。指令微調模型（Instruct）是通過在專門為日語構建的合成數據上進行有監督微調（SFT）而構建的。查看Swallow模型索引部分，以找到其他模型變體。

🚀 快速開始

安裝依賴

pip install vllm

代碼示例

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "日本の冬から春の移り変わりについて教えてください",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

✨ 主要特性

多語言能力：在保留英文能力的同時，增強了日語能力。
持續預訓練：基於Meta Llama 3.3模型進行持續預訓練。
指令微調：通過在專門為日語構建的合成數據上進行有監督微調，構建指令微調模型。

📦 安裝指南

pip install vllm

💻 使用示例

基礎用法

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Llama-3.3-Swallow-70B-Instruct-v0.4"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=4,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512, stop="<|eot_id|>"
)


message = [
    {"role": "system", "content": "あなたは誠実で優秀な日本人のアシスタントです。"},
    {
        "role": "user",
        "content": "日本の冬から春の移り変わりについて教えてください",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

📚 詳細文檔

發佈歷史

2025年3月10日：發佈Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
2024年12月30日：發佈Llama-3.1-Swallow-70B-Instruct-v0.3。
2024年12月23日：發佈Llama-3.1-Swallow-8B-Instruct-v0.3。
2024年11月11日：發佈Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
2024年10月8日：發佈Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace
70B	🤗 HuggingFace	🤗 HuggingFace			🤗 HuggingFace	🤗 HuggingFace	🤗 HuggingFace

模型詳情

屬性	詳情
模型類型	請參考Llama 3.1 MODEL_CARD瞭解模型架構詳情。
語言	日語、英語
庫	Megatron-LM
分詞器	請參考Llama 3.1博客瞭解分詞器詳情。
聯繫方式	swallow[at]nlp.c.titech.ac.jp

模型性能

MT - Bench JA

模型	編碼	提取	人文	數學	推理	角色扮演	科學技術	寫作	JMT平均
Llama 3 70B Instruct	0.588	0.884	0.715	0.637	0.487	0.594	0.598	0.619	0.640
Llama 3.1 70B Instruct	0.691	0.848	0.730	0.669	0.618	0.699	0.699	0.694	0.706
Llama 3.3 70B Instruct	0.707	0.865	0.757	0.720	0.635	0.773	0.706	0.733	0.737
Llama 3 Youko 70B Instruct	0.607	0.894	0.834	0.609	0.673	0.790	0.764	0.829	0.750
Llama-3.1-70B-Japanese-Instruct-24070	0.683	0.827	0.824	0.749	0.643	0.818	0.715	0.751	0.751
Llama 3 heron brain 70B v0.3	0.510	0.870	0.776	0.680	0.513	0.727	0.692	0.693	0.683
Llama 3 Swallow 70B Instruct	0.633	0.823	0.601	0.521	0.482	0.622	0.635	0.630	0.618
Llama 3.1 Swallow 70B Instruct v0.1	0.654	0.792	0.768	0.704	0.573	0.682	0.653	0.704	0.691
Llama 3.1 Swallow 70B Instruct v0.3	0.678	0.820	0.867	0.776	0.570	0.816	0.769	0.852	0.769
Llama 3.3 Swallow 70B Instruct v0.4	0.705	0.820	0.870	0.730	0.623	0.811	0.781	0.832	0.772
Qwen2 - 72B - Instruct	0.632	0.800	0.842	0.688	0.616	0.824	0.797	0.846	0.756
Qwen2.5 - 72B - Instruct	0.795	0.860	0.865	0.857	0.784	0.863	0.804	0.854	0.835
GPT - 3.5 (gpt - 3.5 - turbo - 0125)	0.693	0.789	0.773	0.665	0.462	0.728	0.644	0.775	0.691
GPT - 4o (gpt - 4o - 2024 - 08 - 06)	0.855	0.926	0.880	0.872	0.706	0.862	0.838	0.849	0.848
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18)	0.825	0.865	0.857	0.843	0.665	0.846	0.855	0.840	0.824

日語任務

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL - Sum	MGSM	WMT20 - en - ja	WMT20 - ja - en	JMMLU	JHumanEval	Ja平均
	4 - shot	4 - shot	4 - shot	4 - shot	1 - shot	4 - shot	4 - shot	4 - shot	5 - shot	0 - shot
	EM準確率	字符F1	字符F1	字符F1	ROUGE - 2	EM準確率	BLEU	BLEU	EM準確率	pass@1
Llama 3 70B Instruct	0.940	0.615	0.557	0.913	0.191	0.716	0.269	0.234	0.680	0.662	0.578
Llama 3.1 70B Instruct	0.950	0.635	0.579	0.921	0.178	0.732	0.279	0.247	0.733	0.696	0.595
Llama 3.3 70B Instruct	0.941	0.640	0.570	0.893	0.179	0.784	0.278	0.243	0.735	0.744	0.601
Llama 3 Youko 70B Instruct	0.952	0.625	0.584	0.921	0.198	0.720	0.263	0.226	0.718	0.610	0.582
Llama - 3.1 - 70B - Japanese - Instruct - 24070	0.956	0.647	0.660	0.919	0.156	0.748	0.290	0.241	0.723	0.627	0.597
Llama 3 heron brain 70B v0.3	0.965	0.652	0.679	0.922	0.261	0.772	0.309	0.258	0.707	0.623	0.615
Llama 3 Swallow 70B Instruct	0.963	0.627	0.598	0.921	0.139	0.672	0.272	0.255	0.657	0.608	0.571
Llama 3.1 Swallow 70B Instruct v0.1	0.962	0.621	0.660	0.924	0.192	0.776	0.312	0.259	0.711	0.468	0.588
Llama 3.1 Swallow 70B Instruct v0.3	0.964	0.632	0.654	0.911	0.196	0.772	0.305	0.257	0.690	0.596	0.598
Llama 3.3 Swallow 70B Instruct v0.4	0.981	0.618	0.662	0.907	0.162	0.812	0.319	0.261	0.707	0.700	0.613
Qwen2 - 72B - Instruct	0.963	0.628	0.557	0.920	0.166	0.780	0.260	0.232	0.771	0.701	0.598
Qwen2.5 - 72B - Instruct	0.970	0.569	0.582	0.738	0.170	0.840	0.227	0.218	0.789	0.634	0.574
GPT - 3.5 (gpt - 3.5 - turbo - 0125)	0.922	0.456	0.447	0.893	0.215	0.572	0.287	0.243	0.499	0.616	0.515
GPT - 4o (gpt - 4o - 2024 - 08 - 06)	0.982	0.731	0.709	0.889	0.170	0.864	0.314	0.254	0.797	0.752	0.646
GPT - 4o - mini (gpt - 4o - mini - 2024 - 07 - 18)	0.961	0.464	0.591	0.902	0.160	0.832	0.299	0.241	0.679	0.675	0.580

英語任務

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	En平均
	4 - shot	4 - shot	4 - shot	4 - shot	4 - shot	5 - shot	4 - shot	4 - shot	3 - shot	0 - shot
	準確率	EM準確率	準確率	EM準確率	準確率	準確率	EM準確率	CoT EM準確率	CoT EM準確率	pass@1
Llama 3 70B Instruct	0.438	0.800	0.655	0.696	0.914	0.800	0.909	0.474	0.833	0.774	0.729
Llama 3.1 70B Instruct	0.426	0.821	0.662	0.660	0.917	0.822	0.876	0.560	0.842	0.794	0.738
Llama 3.3 70B Instruct	0.426	0.817	0.667	0.684	0.917	0.824	0.890	0.706	0.853	0.834	0.762
Llama 3 Youko 70B Instruct	0.454	0.797	0.686	0.659	0.915	0.805	0.892	0.434	0.780	0.662	0.708
Llama - 3.1 - 70B - Japanese - Instruct - 24070	0.422	0.810	0.647	0.663	0.917	0.807	0.889	0.528	0.823	0.746	0.725
Llama 3 heron brain 70B v0.3	0.446	0.811	0.668	0.706	0.919	0.790	0.877	0.508	0.759	0.668	0.715
Llama 3 Swallow 70B Instruct	0.446	0.818	0.676	0.681	0.923	0.789	0.868	0.460	0.816	0.680	0.716
Llama 3.1 Swallow 70B Instruct v0.1	0.446	0.815	0.683	0.681	0.917	0.787	0.884	0.474	0.848	0.568	0.710
Llama 3.1 Swallow 70B Instruct v0.3	0.454	0.825	0.692	0.647	0.919	0.777	0.872	0.458	0.816	0.643	0.710
Llama 3.3 Swallow 70B Instruct v0.4	0.448	0.817	0.686	0.654	0.912	0.803	0.908	0.566	0.812	0.750	0.736
Qwen2 - 72B - Instruct	0.444	0.759	0.685	0.685	0.911	0.839	0.848	0.634	0.193	0.688	0.669
Qwen2.5 - 72B - Instruct	0.454	0.676	0.706	0.677	0.889	0.848	0.904	0.770	0.375	0.614	0.691

評估基準

MT - Bench JA

我們使用[日語MT - Bench](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_question)來評估多輪對話能力，設置如下：

實現：FastChat [Zheng +, 2023]（提交編號#e86e70d0）
問題：[Nejumi LLM - Leaderboard NEO, mtbench_ja_question_v4](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_question/v3)
參考答案：[Nejumi LLM - Leaderboard NEO, mtbench_ja_referenceanswer_v2](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_referenceanswer/v1)的修訂版，我們在其中驗證並糾正了錯誤答案。此修訂版已隨[swallow - evaluation](https://github.com/swallow - llm/swallow - evaluation) 202411版本發佈。
評判提示：[Nejumi LLM - Leaderboard NEO, mtbench_ja_prompt_v1](https://wandb.ai/wandb - japan/llm - leaderboard/artifacts/dataset/mtbench_ja_prompt/v1)
評判器：gpt - 4o - 2024 - 08 - 06
評分：絕對尺度歸一化到0 - 1範圍，五次運行取平均值。

日語評估基準

我們使用了llm - jp - eval(v1.3.0)、JP Language Model Evaluation Harness（提交編號#9b42d41）和Code Generation LM Evaluation Harness（提交編號#0261c52）。詳情如下：

多項選擇題回答（JCommonsenseQA [Kurihara等人, 2022]）
開放式問題回答（JEMHopQA [Ishii等人, 2024]）
開放式問題回答（NIILC [関根, 2003]）
機器閱讀理解（JSQuAD [Kurihara等人, 2022]）
自動摘要（XL - Sum [Hasan等人, 2021]）
機器翻譯（WMT2020 ja - en [Barrault等人, 2020]）
機器翻譯（WMT2020 en - ja [Barrault等人, 2020]）
數學推理（MGSM [Shi等人, 2023]）
學術考試（JMMLU [尹ら, 2024]）
代碼生成（JHumanEval [佐藤ら, 2024]）

英語評估基準

我們使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness（提交編號#0261c52）。詳情如下：

多項選擇題回答（OpenBookQA [Mihaylov等人, 2018]）
開放式問題回答（TriviaQA [Joshi等人, 2017]）
機器閱讀理解（SQuAD2 [Rajpurkar等人, 2018]）
常識推理（XWINO [Tikhonov和Ryabinin, 2021]）
自然語言推理（HellaSwag [Zellers等人, 2019]）
數學推理（GSM8K [Cobbe等人, 2021]）
數學推理（MATH [Hendrycks等人, 2022][Lightman等人, 2024]）
推理（BBH (BIG - Bench - Hard) [Suzgun等人, 2023]）
學術考試（MMLU [Hendrycks等人, 2021]）
代碼生成（HumanEval [Chen等人, 2021]）

訓練數據集

指令微調

以下數據集用於指令微調：

[Gemma - 2 - LMSYS - Chat - 1M - Synth](https://huggingface.co/datasets/tokyotech - llm/lmsys - chat - 1m - synth)
- 從[lmsys - chat - 1m](https://huggingface.co/datasets/lmsys/lmsys - chat - 1m)合成和派生的多輪日語指令數據集 [Zhang +, ICLR24]。
- 第一輪用戶指令通過DeepL（機器翻譯）翻譯成日語，助手回覆使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)生成。同一模型，即[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)作為拒絕採樣的評判器（n = 6）。
- 第二輪用戶指令和回覆使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)合成。同一模型對第二輪迴復的質量進行1 - 10分的評分。得分低於9分的第二輪迴復及其對應的指令被拒絕。
- 包含個人身份信息（PII）和基於模板的用戶指令的對話被移除。重複的指令被移除。
[Swallow - Magpie - Ultra - v0.1](https://huggingface.co/datasets/tokyotech - llm/swallow - magpie - ultra - v0.1)
- filtered - magpie - ultra - en數據集的日語變體，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)翻譯成日語。
[Swallow - Gemma - Magpie - v0.1](https://huggingface.co/datasets/tokyotech - llm/swallow - gemma - magpie - v0.1)
- 一個全新的日語合成指令微調數據集，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)生成。用戶指令使用針對每個主題的特定提示創建，助手回覆針對這些指令生成。
- 對話根據質量和長度進行啟發式過濾。然後，使用[gemma - 2 - 27b - it](https://huggingface.co/google/gemma - 2 - 27b - it)對每個對話的質量進行1 - 10分的評分。得分小於等於7分的對話被拒絕。
Swallow - Code - v0.3 - Instruct - style
- 一個用於英文代碼生成的合成指令數據集，使用[Llama - 3.3 - 70B - Instruct](https://huggingface.co/meta - llama/Llama - 3.3 - 70B - Instruct)將Swallow Code v0.3重構為指令跟隨格式。

🔧 技術細節

模型通過在Meta Llama 3.3模型基礎上進行持續預訓練，使用約3150億個從多種來源採樣的標記，在保留英文能力的同時增強了日語能力。指令微調模型通過在專門為日語構建的合成數據上進行有監督微調構建。

📄 許可證

META LLAMA 3.3 COMMUNITY LICENSE和Gemma使用條款

致謝

我們感謝Meta Research以慷慨的開放許可證發佈Llama 3.3。

我們感謝亞馬遜網絡服務（AWS）提供對SageMaker HyperPod的訪問權限，這使得Llama 3.3 Swallow項目的訓練成為可能。

我們獲得了以下各種支持：

AIST項目：“物理領域生成式AI基礎模型的研究與開發”
NEDO項目：“基於熟練人員視角的設計風險評估工作中支持判斷的人工智能應用技術開發”（JPNP18002），屬於“下一代人工智能和機器人核心集成技術開發”項目
MEXT項目：“形成確保生成式AI模型透明度和可靠性的研發中心”
AIST計劃：大型生成式AI開發支持計劃

作者

以下是團隊成員：

來自東京工業大學科學研究所岡崎實驗室的成員：
- 岡崎直明
- [水樹栄](https://s - mizuki - nlp.github.io/)
- 馬悠米
- 前田航輝
- [服部駆](https://aya - se.vercel.app/)
- 大井正成
- 島田日成
- 塩谷大平
- [齋藤浩志郎](https://sites.google.com/view/koshiro - saito)
來自東京工業大學科學研究所橫田實驗室的成員：
- 橫田莉央
- 藤井和樹
- 中村大史
- [岡本匠](https://www.linkedin.com/in/takumi - okamoto)
- 石田重樹
- [田島悠人](https://www.linkedin.com/in/yukito - tajima - 51bbb2299)
- 川村正樹
來自日本產業技術綜合研究所人工智能研究中心的成員：
- 高村宏也

如何引用

如果您覺得我們的工作有幫助，請隨意引用以下論文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models}, 
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714}, 
}

參考文獻

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}