Gemma-2-Llama-Swallow-27b-it-v0.1開源大模型 - 增強日語能力，保留英語能力優勢

首頁

Gemma 2 Llama Swallow 27b It V0.1

由tokyotech-llm開發

基於Gemma-2架構的日語增強大語言模型，通過持續預訓練顯著提升日語能力，同時保留原版英語能力

大型語言模型

Transformers

支持多種語言#日語增強 #多輪對話 #雙語處理

下載量 27

發布時間 : 4/24/2025

模型概述

該模型是對Google Gemma-2進行持續預訓練構建的系列模型之一，特別針對日語處理能力進行了優化，適用於日英雙語文本生成和理解任務

模型特點

雙語能力增強

在保留原版Gemma 2英語能力的同時，顯著增強了日語處理能力

大規模預訓練

使用約2000億tokens的混合語料進行持續預訓練，包含專業日語語料

指令微調優化

採用針對日語特別構建的合成數據進行監督式微調(SFT)

模型能力

日語文本生成

英語文本生成

日英雙語理解

多輪對話處理

代碼生成

使用案例

語言服務

日語聊天助手

構建流暢自然的日語對話系統

在日語MT-Bench評測中表現優異

日英翻譯

實現高質量的日英互譯

在WMT20評測基準上有競爭力表現

教育

日語學習輔助

幫助非日語母語者學習日語

🚀 Gemma-2-Llama-Swallow

Gemma-2-Llama-Swallow系列模型是在gemma-2模型的基礎上進行持續預訓練而構建的。Gemma 2 Swallow在保留英文能力的同時，增強了原版Gemma 2的日語能力。我們使用了大約2000億個標記進行持續預訓練，這些標記是從一個大型日語網絡語料庫（Swallow語料庫版本2）、日語和英文維基百科文章以及數學和編碼內容等中採樣得到的（詳見基礎模型的訓練數據集部分）。指令微調模型（it）是通過在專門為日語構建的合成數據上進行有監督微調（SFT）而構建的。請參閱Swallow模型索引部分以查找其他模型變體。該模型基於Gemma和Llama構建。

🚀 快速開始

你可以按照以下步驟使用Gemma-2-Llama-Swallow模型：

pip install vllm

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512,
)


message = [
    {
        "role": "user",
        "content": "Êó•Êú¨„ÅÆÊò•„Åã„ÇâÂ§è„ÅÆÁßª„ÇäÂ§â„Çè„Çä„Å´„Å§„ÅÑ„Å¶Êïô„Åà„Å¶„Åè„Å†„Åï„ÅÑ",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

✨ 主要特性

多語言能力：Gemma-2-Llama-Swallow系列模型在保留英文能力的同時，顯著增強了日語能力，能夠處理多種語言的任務。
持續預訓練：通過在大規模的日語網絡語料庫、維基百科文章以及數學和編碼內容等數據上進行持續預訓練，模型的性能得到了進一步提升。
指令微調：使用專門為日語構建的合成數據進行有監督微調，使模型在多輪對話和特定任務上表現更出色。

📦 安裝指南

你可以使用以下命令安裝所需的依賴庫：

pip install vllm

💻 使用示例

基礎用法

from transformers import AutoTokenizer
from vllm import LLM, SamplingParams

model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"

tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
    model=model_name,
    tensor_parallel_size=1,
)

sampling_params = SamplingParams(
    temperature=0.6, top_p=0.9, max_tokens=512,
)


message = [
    {
        "role": "user",
        "content": "Êó•Êú¨„ÅÆÊò•„Åã„ÇâÂ§è„ÅÆÁßª„ÇäÂ§â„Çè„Çä„Å´„Å§„ÅÑ„Å¶Êïô„Åà„Å¶„Åè„Å†„Åï„ÅÑ",
    },
]
prompt = tokenizer.apply_chat_template(
    message, tokenize=False, add_generation_prompt=True
)

output = llm.generate(prompt, sampling_params)

print(output[0].outputs[0].text)

📚 詳細文檔

模型詳情

屬性	詳情
模型類型	請參考Gemma 2論文瞭解模型架構的詳細信息。
支持語言	日語、英語
庫	maxtext
分詞器	請參考Gemma 2論文瞭解分詞器的詳細信息。
聯繫方式	swallow[at]nlp.c.titech.ac.jp

發佈歷史

2025年5月19日：發佈了Gemma-2-Llama-Swallow-2b-pt-v0.1、Gemma-2-Llama-Swallow-9b-pt-v0.1、Gemma-2-Llama-Swallow-27b-pt-v0.1、Gemma-2-Llama-Swallow-2b-it-v0.1、Gemma-2-Llama-Swallow-9b-it-v0.1和Gemma-2-Llama-Swallow-27b-it-v0.1。

Swallow模型索引

模型	gemma-2-swallow v0.1	gemma-2-swallow-it v0.1
2B	ü§ó HuggingFace	ü§ó HuggingFace
9B	ü§ó HuggingFace	ü§ó HuggingFace
27B	ü§ó HuggingFace	ü§ó HuggingFace

該網站https://swallow-llm.github.io/提供了Swallow團隊開發的大語言模型。

模型性能

MT-Bench JA

模型	編碼	提取	人文	數學	推理	角色扮演	STEM	寫作	JMT平均
google/gemma-3-1b-it	0.379	0.497	0.680	0.385	0.322	0.628	0.540	0.651	0.510
Qwen/Qwen2.5-1.5B-Instruct	0.408	0.513	0.456	0.527	0.352	0.473	0.406	0.469	0.450
google/gemma-2-2b-it	0.454	0.587	0.693	0.524	0.445	0.654	0.567	0.630	0.569
rinna/gemma-2-baku-2b-it	0.470	0.625	0.810	0.414	0.382	0.713	0.609	0.697	0.590
google/gemma-2-2b-jpn-it	0.467	0.488	0.741	0.379	0.406	0.660	0.589	0.672	0.550
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.438	0.533	0.781	0.557	0.404	0.706	0.674	0.682	0.597
Qwen/Qwen2.5-3B-Instruct	0.567	0.647	0.597	0.665	0.457	0.649	0.526	0.637	0.593
google/gemma-3-4b-it	0.603	0.724	0.798	0.767	0.498	0.803	0.775	0.822	0.724
Qwen/Qwen2.5-7B-Instruct	0.599	0.741	0.719	0.637	0.541	0.744	0.624	0.713	0.665
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.562	0.756	0.869	0.610	0.512	0.783	0.748	0.803	0.705
google/gemma-2-9b-it	0.652	0.765	0.857	0.614	0.673	0.811	0.713	0.800	0.736
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.592	0.796	0.872	0.742	0.638	0.802	0.745	0.803	0.749
google/gemma-3-12b-it	0.807	0.814	0.871	0.886	0.623	0.847	0.858	0.863	0.821
google/gemma-2-27b-it	0.727	0.809	0.874	0.719	0.639	0.810	0.740	0.826	0.768
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.618	0.839	0.873	0.741	0.608	0.814	0.739	0.836	0.759
google/gemma-3-27b-it	0.804	0.927	0.879	0.876	0.774	0.846	0.848	0.882	0.855
Qwen/Qwen2.5-32B-Instruct	0.724	0.885	0.816	0.918	0.726	0.834	0.763	0.808	0.809

日語任務

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	Ja平均
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM準確率	字符F1	字符F1	字符F1	ROUGE-2	EM準確率	BLEU	BLEU	EM準確率	pass@1
google/gemma-3-1b-it	0.526	0.330	0.237	0.700	0.113	0.088	0.166	0.115	0.332	0.245	0.285
Qwen/Qwen2.5-1.5B-Instruct	0.812	0.276	0.241	0.847	0.128	0.292	0.147	0.119	0.447	0.242	0.355
google/gemma-2-2b-it	0.862	0.348	0.315	0.879	0.117	0.252	0.207	0.183	0.437	0.321	0.392
rinna/gemma-2-baku-2b-it	0.855	0.228	0.390	0.877	0.115	0.172	0.255	0.190	0.415	0.165	0.366
google/gemma-2-2b-jpn-it	0.845	0.321	0.291	0.877	0.131	0.192	0.204	0.180	0.418	0.311	0.377
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.862	0.367	0.483	0.881	0.145	0.288	0.258	0.200	0.485	0.267	0.424
Qwen/Qwen2.5-3B-Instruct	0.876	0.304	0.293	0.866	0.144	0.228	0.198	0.168	0.536	0.474	0.409
google/gemma-3-4b-it	0.818	0.444	0.404	0.801	0.134	0.332	0.217	0.169	0.477	0.365	0.416
Qwen/Qwen2.5-7B-Instruct	0.915	0.429	0.391	0.891	0.168	0.632	0.211	0.192	0.623	0.532	0.498
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.924	0.528	0.583	0.896	0.191	0.532	0.281	0.229	0.544	0.394	0.510
google/gemma-2-9b-it	0.931	0.532	0.527	0.876	0.149	0.636	0.273	0.239	0.623	0.559	0.535
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.946	0.606	0.643	0.852	0.170	0.624	0.296	0.238	0.639	0.446	0.546
google/gemma-3-12b-it	0.935	0.566	0.542	0.808	0.148	0.724	0.289	0.239	0.645	0.637	0.553
google/gemma-2-27b-it	0.956	0.541	0.576	0.883	0.166	0.704	0.290	0.249	0.670	0.638	0.567
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.969	0.654	0.658	0.891	0.194	0.764	0.316	0.258	0.686	0.635	0.602
google/gemma-3-27b-it	0.946	0.592	0.584	0.867	0.142	0.764	0.307	0.253	0.716	0.736	0.591
Qwen/Qwen2.5-32B-Instruct	0.959	0.567	0.497	0.903	0.169	0.780	0.228	0.195	0.757	0.651	0.571

英語任務

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	En平均
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	準確率	EM準確率	準確率	EM準確率	準確率	準確率	EM準確率	CoT EM準確率	CoT EM準確率	pass@1
google/gemma-3-1b-it	0.272	0.229	0.421	0.501	0.786	0.398	0.256	0.340	0.379	0.335	0.392
Qwen/Qwen2.5-1.5B-Instruct	0.334	0.378	0.503	0.501	0.844	0.604	0.257	0.272	0.272	0.277	0.424
google/gemma-2-2b-it	0.354	0.502	0.520	0.548	0.878	0.569	0.440	0.230	0.464	0.382	0.489
rinna/gemma-2-baku-2b-it	0.342	0.416	0.511	0.522	0.871	0.526	0.027	0.174	0.063	0.158	0.361
google/gemma-2-2b-jpn-it	0.370	0.503	0.532	0.539	0.879	0.557	0.351	0.132	0.451	0.392	0.471
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1	0.332	0.417	0.529	0.506	0.856	0.530	0.284	0.150	0.405	0.301	0.431
Qwen/Qwen2.5-3B-Instruct	0.364	0.446	0.562	0.504	0.869	0.664	0.096	0.612	0.128	0.471	0.472
google/gemma-3-4b-it	0.412	0.500	0.560	0.552	0.872	0.583	0.769	0.306	0.598	0.513	0.566
Qwen/Qwen2.5-7B-Instruct	0.428	0.519	0.624	0.569	0.877	0.742	0.739	0.688	0.217	0.636	0.604
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3	0.396	0.629	0.593	0.570	0.884	0.629	0.622	0.266	0.626	0.445	0.566
google/gemma-2-9b-it	0.432	0.658	0.605	0.659	0.904	0.723	0.779	0.394	0.719	0.613	0.649
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1	0.404	0.640	0.609	0.623	0.900	0.680	0.710	0.392	0.663	0.491	0.611
google/gemma-3-12b-it	0.422	0.665	0.639	0.649	0.901	0.721	0.867	0.796	0.802	0.712	0.717
google/gemma-2-27b-it	0.458	0.766	0.655	0.669	0.909	0.762	0.851	0.466	0.790	0.707	0.703
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1	0.424	0.747	0.663	0.664	0.911	0.749	0.821	0.442	0.772	0.682	0.687
google/gemma-3-27b-it	0.418	0.744	0.661	0.687	0.906	0.774	0.916	0.852	0.793	0.829	0.758
Qwen/Qwen2.5-32B-Instruct	0.424	0.534	0.671	0.536	0.893	0.834	0.581	0.802	0.017	0.589	0.588

評估基準

MT-Bench JA

我們使用日語MT-Bench來評估多輪對話能力，設置如下：

實現方式：FastChat [Zheng+, 2023]（提交記錄 #e86e70d0）
問題：Nejumi LLM-Leaderboard NEO, mtbench_ja_question_v4
參考答案：Nejumi LLM-Leaderboard NEO, mtbench_ja_referenceanswer_v2的修訂版，我們對其中的錯誤答案進行了驗證和修正。該修訂版已隨swallow-evaluation Ver. 202411發佈。
評判提示：Nejumi LLM-Leaderboard NEO, mtbench_ja_prompt_v1
評判模型：gpt-4o-2024-08-06
評分方式：絕對尺度歸一化到0-1範圍，五次運行取平均值。

日語評估基準

我們使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness（提交記錄 #9b42d41）和Code Generation LM Evaluation Harness（提交記錄 #0261c52）。具體細節如下：

多項選擇題回答（JCommonsenseQA [Kurihara et al., 2022]）
開放式問題回答（JEMHopQA [Ishii et al., 2024]）
開放式問題回答（NIILC [Èñ¢Ê†π, 2003]）
機器閱讀理解（JSQuAD [Kurihara et al., 2022]）
自動摘要（XL-Sum [Hasan et al., 2021]）
機器翻譯（WMT2020 en-ja [Barrault et al., 2020]）
機器翻譯（WMT2020 ja-en [Barrault et al., 2020]）
數學推理（MGSM [Shi et al., 2023]）
學術考試（JMMLU [Â∞π„Çâ, 2024]）
代碼生成（JHumanEval [‰ΩêËó§„Çâ, 2024]）

英語評估基準

我們使用了Language Model Evaluation Harness（v.0.4.2）和Code Generation LM Evaluation Harness（提交記錄 #0261c52）。具體細節如下：

多項選擇題回答（OpenBookQA [Mihaylov et al., 2018]）
開放式問題回答（TriviaQA [Joshi et al., 2017]）
機器閱讀理解（SQuAD2 [Rajpurkar et al., 2018]）
常識推理（XWINO [Tikhonov and Ryabinin, 2021]）
自然語言推理（HellaSwag [Zellers et al., 2019]）
數學推理（GSM8K [Cobbe et al., 2021]）
數學推理（MATH [Hendrycks et al., 2022][Lightman et al., 2024]）
推理（BBH (BIG-Bench-Hard) [Suzgun et al., 2023]）
學術考試（MMLU [Hendrycks et al., 2021]）
代碼生成（HumanEval [Chen et al., 2021]）

評估腳本可在swallow-llm/swallow-evaluation中找到，標籤為v202411。

訓練數據集

指令微調

以下數據集用於指令微調：

Gemma-2-LMSYS-Chat-1M-Synth
- 基於lmsys-chat-1m合成和派生的多輪日語指令數據集 [Zhang+, ICLR24]。
- 首輪用戶指令通過DeepL（機器翻譯）翻譯成日語，助手回覆使用gemma-2-27b-it生成。同一模型，即gemma-2-27b-it作為拒絕採樣的評判模型（n = 6）。
- 第二輪用戶指令和回覆使用gemma-2-27b-it合成。同一模型對第二輪迴復的質量進行評分，範圍為1-10。得分低於9的第二輪迴復及其對應的指令將被拒絕。
- 移除包含個人身份信息（PII）和基於模板的用戶指令的對話。移除重複的指令。
Swallow-Magpie-Ultra-v0.1
- filtered-magpie-ultra-en數據集的日語變體，由gemma-2-27b-it翻譯成日語。
Swallow-Gemma-Magpie-v0.1
- 一個全新的日語合成指令微調數據集，由gemma-2-27b-it生成。用戶指令是針對每個主題的特定提示創建的，助手回覆是為這些指令生成的。
- 對話經過啟發式過濾以確保質量和長度。然後，使用gemma-2-27b-it對每個對話的質量進行評分，範圍為1-10。得分 <= 7的對話將被拒絕。

🔧 技術細節

Gemma-2-Llama-Swallow系列模型是在gemma-2模型的基礎上進行持續預訓練而構建的。在持續預訓練過程中，使用了大約2000億個標記，這些標記來自大型日語網絡語料庫、日語和英文維基百科文章以及數學和編碼內容等。指令微調模型（it）是通過在專門為日語構建的合成數據上進行有監督微調（SFT）而構建的。

📄 許可證

Gemma使用條款和META LLAMA 3.3社區許可證

致謝

我們感謝Google DeepMind以寬鬆的開源許可證發佈Gemma 2。

我們獲得了以下各方面的支持：

AIST項目：“物理領域生成式AI基礎模型的研究與開發”
NEDO項目：“基於熟練人員視角的設計風險評估工作中支持判斷的人工智能應用技術開發”（JPNP18002），屬於“下一代人工智能和機器人核心集成技術開發”項目
MEXT項目：“構建確保生成式AI模型透明度和可靠性的研發中心”
AIST計劃：大型生成式AI開發支持計劃
TPU研究雲

作者

團隊成員包括：

引用方式

如果您認為我們的工作有幫助，請隨時引用以下論文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{ma:arxiv2025,
      title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models},
      author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
      year={2025},
      eprint={2503.23714},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.23714},
}

參考文獻

@misc{gemmateam2024gemma2improvingopen,
      title={Gemma 2: Improving Open Language Models at a Practical Size},
      author={Gemma Team},
      year={2024},
      eprint={2408.00118},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2408.00118},
}