模型概述
模型特點
模型能力
使用案例
🚀 Llama 3.3 Swallow - 基於Llama構建
Llama 3.3 Swallow是一個700億參數的大語言模型,它通過在Meta Llama 3.3模型上進行持續預訓練而構建。該模型在保留英文能力的同時,增強了原版Llama 3.3的日語能力。我們使用了大約3150億個來自大型日語網絡語料庫(Swallow語料庫版本2)、日語和英文維基百科文章以及數學和編碼內容等的標記進行持續預訓練(詳見基礎模型的訓練數據集部分)。指令調優模型(Instruct)是通過在專門為日語構建的合成數據上進行有監督微調(SFT)而構建的。查看Swallow模型索引部分,以找到其他模型變體。
🚀 快速開始
Llama 3.3 Swallow為用戶提供了在英文和日語場景下的強大語言處理能力。你可以通過訪問模型的Hugging Face鏈接來使用不同版本的模型。
✨ 主要特性
- 雙語能力增強:在保留英文能力的基礎上,顯著提升了日語處理能力。
- 持續預訓練:使用大規模多樣化的語料進行持續預訓練,提升模型性能。
- 多種模型變體:提供不同版本和規格的模型,滿足不同需求。
📚 詳細文檔
發佈歷史
- 2025年3月10日:發佈了Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
- 2024年12月30日:發佈了Llama-3.1-Swallow-70B-Instruct-v0.3。
- 2024年12月23日:發佈了Llama-3.1-Swallow-8B-Instruct-v0.3。
- 2024年11月11日:發佈了Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
- 2024年10月8日:發佈了Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。
Swallow模型索引
模型 | Llama-3.1-Swallow v0.1 | Llama-3.1-Swallow-Instruct v0.1 | Llama-3.1-Swallow v0.2 | Llama-3.1-Swallow-Instruct v0.2 | Llama-3.1-Swallow-Instruct v0.3 | Llama-3.3-Swallow v0.4 | Llama-3.3-Swallow-Instruct v0.4 |
---|---|---|---|---|---|---|---|
8B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | ||
70B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace |
該網站https://swallow-llm.github.io/提供了Swallow團隊開發的大語言模型。
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 請參考Llama 3.1 MODEL_CARD瞭解模型架構詳情。 |
支持語言 | 日語、英語 |
庫 | Megatron-LM |
分詞器 | 請參考Llama 3.1博客瞭解分詞器詳情。 |
聯繫方式 | swallow[at]nlp.c.titech.ac.jp |
模型性能
日語任務
模型 | JCom. | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20-en-ja | WMT20-ja-en | JMMLU | JHumanEval | 日語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 1-shot | 4-shot | 4-shot | 4-shot | 5-shot | 0-shot | ||
EM準確率 | 字符F1值 | 字符F1值 | 字符F1值 | ROUGE-2 | EM準確率 | BLEU | BLEU | EM準確率 | pass@1 | ||
Qwen2-72B | 0.960 | 0.620 | 0.561 | 0.926 | 0.238 | 0.768 | 0.275 | 0.241 | 0.782 | 0.561 | 0.593 |
Qwen2.5-72B | 0.972 | 0.611 | 0.619 | 0.930 | 0.279 | 0.828 | 0.287 | 0.252 | 0.804 | 0.648 | 0.623 |
Sarashina2-70B | 0.929 | 0.717 | 0.668 | 0.929 | 0.190 | 0.488 | 0.313 | 0.243 | 0.592 | 0.235 | 0.530 |
Llama 3 70B | 0.946 | 0.606 | 0.589 | 0.922 | 0.228 | 0.664 | 0.286 | 0.252 | 0.705 | 0.491 | 0.569 |
Llama 3.1 70B | 0.946 | 0.616 | 0.603 | 0.925 | 0.228 | 0.672 | 0.287 | 0.257 | 0.669 | 0.462 | 0.566 |
Llama 3 Youko 70B | 0.946 | 0.602 | 0.610 | 0.923 | 0.242 | 0.684 | 0.292 | 0.250 | 0.704 | 0.463 | 0.571 |
Llama 3 Swallow 70B | 0.968 | 0.675 | 0.684 | 0.923 | 0.239 | 0.708 | 0.307 | 0.255 | 0.706 | 0.477 | 0.594 |
Llama 3.1 Swallow 70B | 0.955 | 0.645 | 0.678 | 0.923 | 0.272 | 0.684 | 0.320 | 0.259 | 0.709 | 0.487 | 0.593 |
Llama 3.3 Swallow 70B v0.4 | 0.967 | 0.671 | 0.732 | 0.924 | 0.283 | 0.776 | 0.327 | 0.260 | 0.742 | 0.604 | 0.629 |
英語任務
模型 | OpenBookQA | TriviaQA | HellaSWAG | SQuAD2.0 | XWINO | MMLU | GSM8K | MATH | BBH | HumanEval | 英語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 4-shot | 5-shot | 4-shot | 4-shot | 3-shot | 0-shot | ||
準確率 | EM準確率 | 準確率 | EM準確率 | 準確率 | 準確率 | EM準確率 | CoT EM準確率 | CoT EM準確率 | pass@1 | ||
Qwen2-72B | 0.418 | 0.790 | 0.677 | 0.673 | 0.915 | 0.842 | 0.893 | 0.560 | 0.643 | 0.608 | 0.702 |
Qwen2.5-72B | 0.416 | 0.760 | 0.685 | 0.693 | 0.901 | 0.861 | 0.870 | 0.626 | 0.727 | 0.554 | 0.709 |
Sarashina2-70B | 0.388 | 0.537 | 0.628 | 0.675 | 0.917 | 0.630 | 0.011 | 0.206 | 0.639 | 0.281 | 0.491 |
Llama 3 70B | 0.440 | 0.826 | 0.690 | 0.618 | 0.920 | 0.787 | 0.801 | 0.446 | 0.829 | 0.527 | 0.689 |
Llama 3.1 70B | 0.450 | 0.829 | 0.690 | 0.605 | 0.920 | 0.786 | 0.798 | 0.434 | 0.655 | 0.546 | 0.671 |
Llama 3 Youko 70B | 0.436 | 0.829 | 0.690 | 0.610 | 0.922 | 0.785 | 0.797 | 0.408 | 0.826 | 0.412 | 0.671 |
Llama 3 Swallow 70B | 0.430 | 0.823 | 0.682 | 0.628 | 0.923 | 0.774 | 0.817 | 0.414 | 0.734 | 0.499 | 0.672 |
Llama 3.1 Swallow 70B v0.1 | 0.428 | 0.826 | 0.690 | 0.612 | 0.927 | 0.772 | 0.809 | 0.380 | 0.806 | 0.540 | 0.679 |
Llama 3.1 Swallow 70B v0.4 | 0.424 | 0.817 | 0.683 | 0.641 | 0.920 | 0.802 | 0.863 | 0.496 | 0.754 | 0.709 | 0.711 |
評估基準
評估腳本可在swallow-llm/swallow-evaluation找到,標籤為v202411
。
日語評估基準
我們使用了llm-jp-eval(v1.3.0)、JP語言模型評估套件(提交編號9b42d41)和代碼生成LM評估套件(提交編號0261c52)。詳情如下:
- 多項選擇題回答(JCommonsenseQA [Kurihara等人,2022])
- 開放式問題回答(JEMHopQA [Ishii等人,2024])
- 開放式問題回答(NIILC [Èñ¢Ê†π, 2003])
- 機器閱讀理解(JSQuAD [Kurihara等人,2022])
- 自動摘要(XL-Sum [Hasan等人,2021])
- 機器翻譯(WMT2020 ja-en [Barrault等人,2020])
- 機器翻譯(WMT2020 en-ja [Barrault等人,2020])
- 數學推理(MGSM [Shi等人,2023])
- 學術考試(JMMLU [Â∞π„Çâ, 2024])
- 代碼生成(JHumanEval [‰ΩêËó§„Çâ, 2024])
英語評估基準
我們使用了語言模型評估套件(v.0.4.2)和代碼生成LM評估套件(提交編號0261c52)。詳情如下:
- 多項選擇題回答(OpenBookQA [Mihaylov等人,2018])
- 開放式問題回答(TriviaQA [Joshi等人,2017])
- 機器閱讀理解(SQuAD2 [Rajpurkar等人,2018])
- 常識推理(XWINO [Tikhonov和Ryabinin,2021])
- 自然語言推理(HellaSwag [Zellers等人,2019])
- 數學推理(GSM8K [Cobbe等人,2021])
- 數學推理(MATH [Hendrycks等人,2022][Lightman等人,2024])
- 推理(BBH(BIG-Bench-Hard)[Suzgun等人,2023])
- 學術考試(MMLU [Hendrycks等人,2021])
- 代碼生成(HumanEval [Chen等人,2021])
訓練數據集
持續預訓練
以下數據集用於持續預訓練:
- Cosmopedia
- Dclm-baseline-1.0
- 英文維基百科
- FineMath-4+
- 日文維基百科
- Laboro ParaCorpus
- Swallow語料庫版本2(使用Swallow教育分類器(基於維基百科)過濾)
- Swallow語料庫版本2(使用Swallow教育分類器過濾)
- Swallow語料庫版本2(合成問答格式)
- Swallow代碼版本0.3(從The Stack v2 train smol ids過濾,然後使用Llama-3.3-70B-Instruct進行重構)
Swallow語料庫版本2
我們通過從Common Crawl中提取高質量的日語文本構建了Swallow語料庫。在版本2中,我們擴大了Common Crawl的收集範圍,並修改了管道順序,以實現更靈活的質量過濾。對於Llama 3.1 Swallow v0.2,我們進一步優化了質量過濾和數據採樣策略,從而為預訓練選擇了更高質量的日語文本。對於Llama 3.3 Swallow 70B v0.4,我們使用Gemma 2 27B IT對語料庫中的教育網頁文檔進行釋義,生成了合成問答格式的文本。方法和分析的更多細節將在即將發表的論文中提供。
Swallow代碼版本0.3
我們通過從The Stack v2 train smol ids中過濾,然後使用Llama-3.3-70B-Instruct進行重構,構建了Swallow代碼版本0.3。在過濾過程中,我們刪除了有語法錯誤或pylint評分低於7的代碼文本。我們已經發布了過濾後的版本,即Swallow代碼版本0.1。在重構過程中,我們向Llama-3.3-70B-Instruct提供了一個提示,要求其遵循Google Python風格指南和編碼最佳實踐。
風險和侷限性
此處發佈的模型仍處於我們研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
致謝
我們感謝Meta Research以慷慨的開放許可證發佈Llama 3.3。我們感謝亞馬遜網絡服務(AWS)提供對SageMaker HyperPod的訪問權限,這使得Llama 3.3 Swallow項目的訓練成為可能。我們獲得了以下各種支持:
- AIST項目:“物理領域生成式AI基礎模型的研究與開發”
- NEDO項目:“基於熟練人員視角的設計風險評估工作中支持判斷的人工智能應用技術開發”(JPNP18002),屬於“下一代人工智能和機器人核心集成技術開發”項目
- MEXT項目:“建立確保生成式AI模型透明度和可靠性的研發中心”
- AIST計劃:大型生成式AI開發支持計劃
許可證
作者
以下是團隊成員:
- 來自東京工業大學科學研究所岡崎實驗室的成員:
- 來自東京工業大學科學研究所橫田實驗室的成員:
- 來自日本產業技術綜合研究所人工智能研究中心的成員:
如何引用
如果您認為我們的工作有幫助,請隨意引用以下論文:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@misc{fujii2025rewritingpretrainingdataboosts,
title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code},
author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
year={2025},
eprint={2505.02881},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02881},
}
參考文獻
@misc{dubey2024llama3herdmodels,
title={The Llama 3 Herd of Models},
author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
year={2024},
eprint={2407.21783},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.21783},
}



