模型概述
模型特點
模型能力
使用案例
🚀 Gemma-2-Llama-Swallow
Gemma-2-Llama-Swallow系列模型是在gemma-2模型基礎上進行持續預訓練而構建的。Gemma 2 Swallow在保留英文能力的同時,增強了原始Gemma 2模型的日語能力。我們使用了約2000億個從大型日語網絡語料庫(Swallow語料庫版本2)、日語和英文維基百科文章以及數學和編碼內容等中採樣得到的詞元進行持續預訓練(詳見基礎模型的訓練數據集部分)。指令微調模型(it)是通過在專門為日語構建的合成數據上進行監督微調(SFT)而構建的。查看Swallow模型索引部分,以找到其他模型變體。本模型基於Gemma和Llama構建。
🚀 快速開始
安裝依賴
pip install vllm
代碼示例
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512,
)
message = [
{
"role": "user",
"content": "日本の春から夏の移り変わりについて教えてください",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
✨ 主要特性
- 多語言能力:Gemma 2 Swallow在保留英文能力的同時,增強了原始Gemma 2模型的日語能力。
- 持續預訓練:該系列模型是在gemma-2模型基礎上進行持續預訓練而構建的。
- 指令微調:指令微調模型(it)是通過在專門為日語構建的合成數據上進行監督微調(SFT)而構建的。
📦 安裝指南
pip install vllm
💻 使用示例
基礎用法
from transformers import AutoTokenizer
from vllm import LLM, SamplingParams
model_name = "tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)
llm = LLM(
model=model_name,
tensor_parallel_size=1,
)
sampling_params = SamplingParams(
temperature=0.6, top_p=0.9, max_tokens=512,
)
message = [
{
"role": "user",
"content": "日本の春から夏の移り変わりについて教えてください",
},
]
prompt = tokenizer.apply_chat_template(
message, tokenize=False, add_generation_prompt=True
)
output = llm.generate(prompt, sampling_params)
print(output[0].outputs[0].text)
📚 詳細文檔
發佈歷史
- 2025年5月19日:發佈了Gemma-2-Llama-Swallow-2b-pt-v0.1、Gemma-2-Llama-Swallow-9b-pt-v0.1、Gemma-2-Llama-Swallow-27b-pt-v0.1、Gemma-2-Llama-Swallow-2b-it-v0.1、Gemma-2-Llama-Swallow-9b-it-v0.1和Gemma-2-Llama-Swallow-27b-it-v0.1。
Swallow模型索引
模型 | gemma-2-swallow v0.1 | gemma-2-swallow-it v0.1 |
---|---|---|
2B | ü§ó HuggingFace | ü§ó HuggingFace |
9B | ü§ó HuggingFace | ü§ó HuggingFace |
27B | ü§ó HuggingFace | ü§ó HuggingFace |
網站https://swallow-llm.github.io/提供了Swallow團隊開發的大語言模型。
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 有關模型架構的詳細信息,請參考Gemma 2論文。 |
語言 | 日語、英語 |
庫 | maxtext |
分詞器 | 有關分詞器的詳細信息,請參考Gemma 2論文。 |
聯繫方式 | swallow[at]nlp.c.titech.ac.jp |
模型性能
MT-Bench JA
模型 | 編碼 | 提取 | 人文 | 數學 | 推理 | 角色扮演 | 科學技術 | 寫作 | JMT平均 |
---|---|---|---|---|---|---|---|---|---|
google/gemma-3-1b-it | 0.379 | 0.497 | 0.680 | 0.385 | 0.322 | 0.628 | 0.540 | 0.651 | 0.510 |
Qwen/Qwen2.5-1.5B-Instruct | 0.408 | 0.513 | 0.456 | 0.527 | 0.352 | 0.473 | 0.406 | 0.469 | 0.450 |
google/gemma-2-2b-it | 0.454 | 0.587 | 0.693 | 0.524 | 0.445 | 0.654 | 0.567 | 0.630 | 0.569 |
rinna/gemma-2-baku-2b-it | 0.470 | 0.625 | 0.810 | 0.414 | 0.382 | 0.713 | 0.609 | 0.697 | 0.590 |
google/gemma-2-2b-jpn-it | 0.467 | 0.488 | 0.741 | 0.379 | 0.406 | 0.660 | 0.589 | 0.672 | 0.550 |
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 | 0.438 | 0.533 | 0.781 | 0.557 | 0.404 | 0.706 | 0.674 | 0.682 | 0.597 |
Qwen/Qwen2.5-3B-Instruct | 0.567 | 0.647 | 0.597 | 0.665 | 0.457 | 0.649 | 0.526 | 0.637 | 0.593 |
google/gemma-3-4b-it | 0.603 | 0.724 | 0.798 | 0.767 | 0.498 | 0.803 | 0.775 | 0.822 | 0.724 |
Qwen/Qwen2.5-7B-Instruct | 0.599 | 0.741 | 0.719 | 0.637 | 0.541 | 0.744 | 0.624 | 0.713 | 0.665 |
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 0.562 | 0.756 | 0.869 | 0.610 | 0.512 | 0.783 | 0.748 | 0.803 | 0.705 |
google/gemma-2-9b-it | 0.652 | 0.765 | 0.857 | 0.614 | 0.673 | 0.811 | 0.713 | 0.800 | 0.736 |
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 | 0.592 | 0.796 | 0.872 | 0.742 | 0.638 | 0.802 | 0.745 | 0.803 | 0.749 |
google/gemma-3-12b-it | 0.807 | 0.814 | 0.871 | 0.886 | 0.623 | 0.847 | 0.858 | 0.863 | 0.821 |
google/gemma-2-27b-it | 0.727 | 0.809 | 0.874 | 0.719 | 0.639 | 0.810 | 0.740 | 0.826 | 0.768 |
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | 0.618 | 0.839 | 0.873 | 0.741 | 0.608 | 0.814 | 0.739 | 0.836 | 0.759 |
google/gemma-3-27b-it | 0.804 | 0.927 | 0.879 | 0.876 | 0.774 | 0.846 | 0.848 | 0.882 | 0.855 |
Qwen/Qwen2.5-32B-Instruct | 0.724 | 0.885 | 0.816 | 0.918 | 0.726 | 0.834 | 0.763 | 0.808 | 0.809 |
日語任務
模型 | JCom.(4-shot,EM acc) | JEMHopQA(4-shot,Char-F1) | NIILC(4-shot,Char-F1) | JSQuAD(4-shot,Char-F1) | XL-Sum(1-shot,ROUGE-2) | MGSM(4-shot,EM acc) | WMT20-en-ja(4-shot,BLEU) | WMT20-ja-en(4-shot,BLEU) | JMMLU(5-shot,EM acc) | JHumanEval(0-shot,pass@1) | Ja平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
google/gemma-3-1b-it | 0.526 | 0.330 | 0.237 | 0.700 | 0.113 | 0.088 | 0.166 | 0.115 | 0.332 | 0.245 | 0.285 |
Qwen/Qwen2.5-1.5B-Instruct | 0.812 | 0.276 | 0.241 | 0.847 | 0.128 | 0.292 | 0.147 | 0.119 | 0.447 | 0.242 | 0.355 |
google/gemma-2-2b-it | 0.862 | 0.348 | 0.315 | 0.879 | 0.117 | 0.252 | 0.207 | 0.183 | 0.437 | 0.321 | 0.392 |
rinna/gemma-2-baku-2b-it | 0.855 | 0.228 | 0.390 | 0.877 | 0.115 | 0.172 | 0.255 | 0.190 | 0.415 | 0.165 | 0.366 |
google/gemma-2-2b-jpn-it | 0.845 | 0.321 | 0.291 | 0.877 | 0.131 | 0.192 | 0.204 | 0.180 | 0.418 | 0.311 | 0.377 |
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 | 0.862 | 0.367 | 0.483 | 0.881 | 0.145 | 0.288 | 0.258 | 0.200 | 0.485 | 0.267 | 0.424 |
Qwen/Qwen2.5-3B-Instruct | 0.876 | 0.304 | 0.293 | 0.866 | 0.144 | 0.228 | 0.198 | 0.168 | 0.536 | 0.474 | 0.409 |
google/gemma-3-4b-it | 0.818 | 0.444 | 0.404 | 0.801 | 0.134 | 0.332 | 0.217 | 0.169 | 0.477 | 0.365 | 0.416 |
Qwen/Qwen2.5-7B-Instruct | 0.915 | 0.429 | 0.391 | 0.891 | 0.168 | 0.632 | 0.211 | 0.192 | 0.623 | 0.532 | 0.498 |
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 0.924 | 0.528 | 0.583 | 0.896 | 0.191 | 0.532 | 0.281 | 0.229 | 0.544 | 0.394 | 0.510 |
google/gemma-2-9b-it | 0.931 | 0.532 | 0.527 | 0.876 | 0.149 | 0.636 | 0.273 | 0.239 | 0.623 | 0.559 | 0.535 |
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 | 0.946 | 0.606 | 0.643 | 0.852 | 0.170 | 0.624 | 0.296 | 0.238 | 0.639 | 0.446 | 0.546 |
google/gemma-3-12b-it | 0.935 | 0.566 | 0.542 | 0.808 | 0.148 | 0.724 | 0.289 | 0.239 | 0.645 | 0.637 | 0.553 |
google/gemma-2-27b-it | 0.956 | 0.541 | 0.576 | 0.883 | 0.166 | 0.704 | 0.290 | 0.249 | 0.670 | 0.638 | 0.567 |
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | 0.969 | 0.654 | 0.658 | 0.891 | 0.194 | 0.764 | 0.316 | 0.258 | 0.686 | 0.635 | 0.602 |
google/gemma-3-27b-it | 0.946 | 0.592 | 0.584 | 0.867 | 0.142 | 0.764 | 0.307 | 0.253 | 0.716 | 0.736 | 0.591 |
Qwen/Qwen2.5-32B-Instruct | 0.959 | 0.567 | 0.497 | 0.903 | 0.169 | 0.780 | 0.228 | 0.195 | 0.757 | 0.651 | 0.571 |
英語任務
模型 | OpenBookQA(4-shot,Acc) | TriviaQA(4-shot,EM acc) | HellaSWAG(4-shot,Acc) | SQuAD2.0(4-shot,EM acc) | XWINO(4-shot,Acc) | MMLU(5-shot,Acc) | GSM8K(4-shot,EM acc) | MATH(4-shot,CoT EM Acc) | BBH(3-shot,CoT EM Acc) | HumanEval(0-shot,pass@1) | En平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
google/gemma-3-1b-it | 0.272 | 0.229 | 0.421 | 0.501 | 0.786 | 0.398 | 0.256 | 0.340 | 0.379 | 0.335 | 0.392 |
Qwen/Qwen2.5-1.5B-Instruct | 0.334 | 0.378 | 0.503 | 0.501 | 0.844 | 0.604 | 0.257 | 0.272 | 0.272 | 0.277 | 0.424 |
google/gemma-2-2b-it | 0.354 | 0.502 | 0.520 | 0.548 | 0.878 | 0.569 | 0.440 | 0.230 | 0.464 | 0.382 | 0.489 |
rinna/gemma-2-baku-2b-it | 0.342 | 0.416 | 0.511 | 0.522 | 0.871 | 0.526 | 0.027 | 0.174 | 0.063 | 0.158 | 0.361 |
google/gemma-2-2b-jpn-it | 0.370 | 0.503 | 0.532 | 0.539 | 0.879 | 0.557 | 0.351 | 0.132 | 0.451 | 0.392 | 0.471 |
tokyotech-llm/Gemma-2-Llama-Swallow-2b-it-v0.1 | 0.332 | 0.417 | 0.529 | 0.506 | 0.856 | 0.530 | 0.284 | 0.150 | 0.405 | 0.301 | 0.431 |
Qwen/Qwen2.5-3B-Instruct | 0.364 | 0.446 | 0.562 | 0.504 | 0.869 | 0.664 | 0.096 | 0.612 | 0.128 | 0.471 | 0.472 |
google/gemma-3-4b-it | 0.412 | 0.500 | 0.560 | 0.552 | 0.872 | 0.583 | 0.769 | 0.306 | 0.598 | 0.513 | 0.566 |
Qwen/Qwen2.5-7B-Instruct | 0.428 | 0.519 | 0.624 | 0.569 | 0.877 | 0.742 | 0.739 | 0.688 | 0.217 | 0.636 | 0.604 |
tokyotech-llm/Llama-3.1-Swallow-8B-Instruct-v0.3 | 0.396 | 0.629 | 0.593 | 0.570 | 0.884 | 0.629 | 0.622 | 0.266 | 0.626 | 0.445 | 0.566 |
google/gemma-2-9b-it | 0.432 | 0.658 | 0.605 | 0.659 | 0.904 | 0.723 | 0.779 | 0.394 | 0.719 | 0.613 | 0.649 |
tokyotech-llm/Gemma-2-Llama-Swallow-9b-it-v0.1 | 0.404 | 0.640 | 0.609 | 0.623 | 0.900 | 0.680 | 0.710 | 0.392 | 0.663 | 0.491 | 0.611 |
google/gemma-3-12b-it | 0.422 | 0.665 | 0.639 | 0.649 | 0.901 | 0.721 | 0.867 | 0.796 | 0.802 | 0.712 | 0.717 |
google/gemma-2-27b-it | 0.458 | 0.766 | 0.655 | 0.669 | 0.909 | 0.762 | 0.851 | 0.466 | 0.790 | 0.707 | 0.703 |
tokyotech-llm/Gemma-2-Llama-Swallow-27b-it-v0.1 | 0.424 | 0.747 | 0.663 | 0.664 | 0.911 | 0.749 | 0.821 | 0.442 | 0.772 | 0.682 | 0.687 |
google/gemma-3-27b-it | 0.418 | 0.744 | 0.661 | 0.687 | 0.906 | 0.774 | 0.916 | 0.852 | 0.793 | 0.829 | 0.758 |
Qwen/Qwen2.5-32B-Instruct | 0.424 | 0.534 | 0.671 | 0.536 | 0.893 | 0.834 | 0.581 | 0.802 | 0.017 | 0.589 | 0.588 |
評估基準
評估腳本可在swallow-llm/swallow-evaluation中找到,標籤為v202411
。
MT-Bench JA
我們使用日語MT-Bench評估多輪對話能力,設置如下:
- 實現:FastChat [Zheng+, 2023](提交編號#e86e70d0)
- 問題:Nejumi LLM-Leaderboard NEO,mtbench_ja_question_v4
- 參考答案:Nejumi LLM-Leaderboard NEO,mtbench_ja_referenceanswer_v2的修訂版本,我們對其中的錯誤答案進行了驗證和修正。此修訂版本已隨swallow-evaluation 202411版本發佈。
- 評判提示:Nejumi LLM-Leaderboard NEO,mtbench_ja_prompt_v1
- 評判模型:
gpt-4o-2024-08-06
- 評分:絕對尺度歸一化到0-1範圍,五次運行取平均值。
日語評估基準
我們使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交編號#9b42d41)和Code Generation LM Evaluation Harness(提交編號#0261c52)。詳情如下:
- 多項選擇題回答(JCommonsenseQA [Kurihara et al., 2022])
- 開放式問題回答(JEMHopQA [Ishii et al., 2024])
- 開放式問題回答(NIILC [Èñ¢Ê†π, 2003])
- 機器閱讀理解(JSQuAD [Kurihara et al., 2022])
- 自動摘要(XL-Sum [Hasan et al., 2021])
- 機器翻譯(WMT2020 ja-en [Barrault et al., 2020])
- 機器翻譯(WMT2020 en-ja [Barrault et al., 2020])
- 數學推理(MGSM [Shi et al., 2023])
- 學術考試(JMMLU [Â∞π„Çâ, 2024])
- 代碼生成(JHumanEval [‰ΩêËó§„Çâ, 2024])
英語評估基準
我們使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交編號#0261c52)。詳情如下:
- 多項選擇題回答(OpenBookQA [Mihaylov et al., 2018])
- 開放式問題回答(TriviaQA [Joshi et al., 2017])
- 機器閱讀理解(SQuAD2 [Rajpurkar et al., 2018])
- 常識推理(XWINO [Tikhonov and Ryabinin, 2021])
- 自然語言推理(HellaSwag [Zellers et al., 2019])
- 數學推理(GSM8K [Cobbe et al., 2021])
- 數學推理(MATH [Hendrycks et al., 2022][Lightman et al., 2024])
- 推理(BBH(BIG-Bench-Hard) [Suzgun et al., 2023])
- 學術考試(MMLU [Hendrycks et al., 2021])
- 代碼生成(HumanEval [Chen et al., 2021])
訓練數據集
指令微調
以下數據集用於指令微調:
- Gemma-2-LMSYS-Chat-1M-Synth
- 從lmsys-chat-1m合成和派生的多輪日語指令數據集 [Zhang+, ICLR24]。
- 首輪用戶指令通過DeepL(機器翻譯)翻譯成日語,助手回覆使用gemma-2-27b-it生成。同一模型gemma-2-27b-it作為評判模型進行拒絕採樣(n = 6)。
- 第二輪用戶指令和回覆使用gemma-2-27b-it合成。同一模型對第二輪迴復的質量進行1-10分的評分。得分低於9分的第二輪迴復及其對應的指令將被拒絕。同時,包含個人身份信息(PII)和基於模板的用戶指令的對話被刪除,重複的指令也被刪除。
- Swallow-Magpie-Ultra-v0.1
filtered-magpie-ultra-en
數據集的日語變體,由gemma-2-27b-it翻譯成日語。
- Swallow-Gemma-Magpie-v0.1
- 一個全新的日語合成指令微調數據集,由gemma-2-27b-it生成。用戶指令通過針對每個主題的特定提示創建,助手回覆針對這些指令生成。
- 對話經過啟發式過濾以保證質量和長度。然後,使用gemma-2-27b-it對每個對話的質量進行1-10分的評分,得分<= 7分的對話將被拒絕。
風險與侷限性
此處發佈的模型仍處於我們研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
致謝
我們感謝Google DeepMind以慷慨的開放許可發佈Gemma 2。
我們獲得了以下各方面的支持:
- AIST項目:“物理領域生成式AI基礎模型的研究與開發”
- NEDO項目:“基於熟練人員視角的設計風險評估工作中支持判斷的人工智能應用技術開發”(JPNP18002),屬於“下一代人工智能和機器人核心集成技術開發”項目
- MEXT項目:“形成確保生成式AI模型透明度和可靠性的研發中心”
- AIST計劃:大型生成式AI開發支持計劃
- TPU研究雲
許可證
作者
團隊成員:
- 來自東京工業大學科學研究所岡崎實驗室的成員:
- 來自東京工業大學科學研究所橫田實驗室的成員:
- 來自日本產業技術綜合研究所人工智能研究中心的成員:
引用方式
如果您覺得我們的工作有幫助,請隨意引用以下論文:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@misc{ma:arxiv2025,
title={Building Instruction-Tuning Datasets from Human-Written Instructions with Open-Weight Large Language Models},
author={Youmi Ma and Sakae Mizuki and Kazuki Fujii and Taishi Nakamura and Masanari Ohi and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Koki Maeda and Kakeru Hattori and Takumi Okamoto and Shigeki Ishida and Rio Yokota and Hiroya Takamura and Naoaki Okazaki},
year={2025},
eprint={2503.23714},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2503.23714},
}
參考文獻
@misc{gemmateam2024gemma2improvingopen,
title={Gemma 2: Improving Open Language Models at a Practical Size},
author={Gemma Team},
year={2024},
eprint={2408.00118},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2408.00118},
}



