Llama-3.3-Swallow-70B-v0.4開源大模型 - 支持英日雙語對話交流

首頁

Llama 3.3 Swallow 70B V0.4

由tokyotech-llm開發

Llama 3.3 Swallow是一個700億參數的大語言模型，基於Meta Llama 3.3構建，增強了日語能力同時保留英文能力。

大型語言模型

Transformers

支持多種語言#日語增強 #雙語大模型 #持續預訓練

下載量 1,950

發布時間 : 2/17/2025

模型概述

Llama 3.3 Swallow通過在Meta Llama 3.3模型上進行持續預訓練而構建，使用大規模日語和英語語料庫增強雙語處理能力。

模型特點

雙語能力增強

在保留英文能力的基礎上，顯著提升了日語處理能力。

持續預訓練

使用大規模多樣化的語料進行持續預訓練，提升模型性能。

多種模型變體

提供不同版本和規格的模型，滿足不同需求。

模型能力

日語文本生成

英語文本生成

機器翻譯

問答系統

代碼生成

數學推理

使用案例

教育

日語學習輔助

幫助學生理解和生成日語文本。

在日語評估基準中表現優異。

翻譯

日英互譯

用於日英和英日機器翻譯任務。

在WMT20翻譯任務中表現良好。

編程

代碼生成

生成符合Google Python風格指南的代碼。

在JHumanEval評估中表現優異。

🚀 Llama 3.3 Swallow - 基於Llama構建

Llama 3.3 Swallow是一個700億參數的大語言模型，它通過在Meta Llama 3.3模型上進行持續預訓練而構建。該模型在保留英文能力的同時，增強了原版Llama 3.3的日語能力。我們使用了大約3150億個來自大型日語網絡語料庫（Swallow語料庫版本2）、日語和英文維基百科文章以及數學和編碼內容等的標記進行持續預訓練（詳見基礎模型的訓練數據集部分）。指令調優模型（Instruct）是通過在專門為日語構建的合成數據上進行有監督微調（SFT）而構建的。查看Swallow模型索引部分，以找到其他模型變體。

🚀 快速開始

Llama 3.3 Swallow為用戶提供了在英文和日語場景下的強大語言處理能力。你可以通過訪問模型的Hugging Face鏈接來使用不同版本的模型。

✨ 主要特性

雙語能力增強：在保留英文能力的基礎上，顯著提升了日語處理能力。
持續預訓練：使用大規模多樣化的語料進行持續預訓練，提升模型性能。
多種模型變體：提供不同版本和規格的模型，滿足不同需求。

📚 詳細文檔

發佈歷史

2025年3月10日：發佈了Llama-3.3-Swallow-70B-Instruct-v0.4和Llama-3.3-Swallow-70B-v0.4。
2024年12月30日：發佈了Llama-3.1-Swallow-70B-Instruct-v0.3。
2024年12月23日：發佈了Llama-3.1-Swallow-8B-Instruct-v0.3。
2024年11月11日：發佈了Llama-3.1-Swallow-8B-v0.2和Llama-3.1-Swallow-8B-Instruct-v0.2。
2024年10月8日：發佈了Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1和Llama-3.1-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace
70B	🐱 HuggingFace	🐱 HuggingFace			🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace

該網站https://swallow-llm.github.io/提供了Swallow團隊開發的大語言模型。

模型詳情

屬性	詳情
模型類型	請參考Llama 3.1 MODEL_CARD瞭解模型架構詳情。
支持語言	日語、英語
庫	Megatron-LM
分詞器	請參考Llama 3.1博客瞭解分詞器詳情。
聯繫方式	swallow[at]nlp.c.titech.ac.jp

模型性能

日語任務

模型	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	日語平均
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM準確率	字符F1值	字符F1值	字符F1值	ROUGE-2	EM準確率	BLEU	BLEU	EM準確率	pass@1
Qwen2-72B	0.960	0.620	0.561	0.926	0.238	0.768	0.275	0.241	0.782	0.561	0.593
Qwen2.5-72B	0.972	0.611	0.619	0.930	0.279	0.828	0.287	0.252	0.804	0.648	0.623
Sarashina2-70B	0.929	0.717	0.668	0.929	0.190	0.488	0.313	0.243	0.592	0.235	0.530
Llama 3 70B	0.946	0.606	0.589	0.922	0.228	0.664	0.286	0.252	0.705	0.491	0.569
Llama 3.1 70B	0.946	0.616	0.603	0.925	0.228	0.672	0.287	0.257	0.669	0.462	0.566
Llama 3 Youko 70B	0.946	0.602	0.610	0.923	0.242	0.684	0.292	0.250	0.704	0.463	0.571
Llama 3 Swallow 70B	0.968	0.675	0.684	0.923	0.239	0.708	0.307	0.255	0.706	0.477	0.594
Llama 3.1 Swallow 70B	0.955	0.645	0.678	0.923	0.272	0.684	0.320	0.259	0.709	0.487	0.593
Llama 3.3 Swallow 70B v0.4	0.967	0.671	0.732	0.924	0.283	0.776	0.327	0.260	0.742	0.604	0.629

英語任務

模型	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	英語平均
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	準確率	EM準確率	準確率	EM準確率	準確率	準確率	EM準確率	CoT EM準確率	CoT EM準確率	pass@1
Qwen2-72B	0.418	0.790	0.677	0.673	0.915	0.842	0.893	0.560	0.643	0.608	0.702
Qwen2.5-72B	0.416	0.760	0.685	0.693	0.901	0.861	0.870	0.626	0.727	0.554	0.709
Sarashina2-70B	0.388	0.537	0.628	0.675	0.917	0.630	0.011	0.206	0.639	0.281	0.491
Llama 3 70B	0.440	0.826	0.690	0.618	0.920	0.787	0.801	0.446	0.829	0.527	0.689
Llama 3.1 70B	0.450	0.829	0.690	0.605	0.920	0.786	0.798	0.434	0.655	0.546	0.671
Llama 3 Youko 70B	0.436	0.829	0.690	0.610	0.922	0.785	0.797	0.408	0.826	0.412	0.671
Llama 3 Swallow 70B	0.430	0.823	0.682	0.628	0.923	0.774	0.817	0.414	0.734	0.499	0.672
Llama 3.1 Swallow 70B v0.1	0.428	0.826	0.690	0.612	0.927	0.772	0.809	0.380	0.806	0.540	0.679
Llama 3.1 Swallow 70B v0.4	0.424	0.817	0.683	0.641	0.920	0.802	0.863	0.496	0.754	0.709	0.711

評估基準

評估腳本可在swallow-llm/swallow-evaluation找到，標籤為v202411。

日語評估基準

我們使用了llm-jp-eval(v1.3.0)、JP語言模型評估套件（提交編號9b42d41）和代碼生成LM評估套件（提交編號0261c52）。詳情如下：

多項選擇題回答（JCommonsenseQA [Kurihara等人，2022]）
開放式問題回答（JEMHopQA [Ishii等人，2024]）
開放式問題回答（NIILC [Èñ¢Ê†π, 2003]）
機器閱讀理解（JSQuAD [Kurihara等人，2022]）
自動摘要（XL-Sum [Hasan等人，2021]）
機器翻譯（WMT2020 ja-en [Barrault等人，2020]）
機器翻譯（WMT2020 en-ja [Barrault等人，2020]）
數學推理（MGSM [Shi等人，2023]）
學術考試（JMMLU [Â∞π„Çâ, 2024]）
代碼生成（JHumanEval [‰ΩêËó§„Çâ, 2024]）

英語評估基準

我們使用了語言模型評估套件（v.0.4.2）和代碼生成LM評估套件（提交編號0261c52）。詳情如下：

多項選擇題回答（OpenBookQA [Mihaylov等人，2018]）
開放式問題回答（TriviaQA [Joshi等人，2017]）
機器閱讀理解（SQuAD2 [Rajpurkar等人，2018]）
常識推理（XWINO [Tikhonov和Ryabinin，2021]）
自然語言推理（HellaSwag [Zellers等人，2019]）
數學推理（GSM8K [Cobbe等人，2021]）
數學推理（MATH [Hendrycks等人，2022][Lightman等人，2024]）
推理（BBH（BIG-Bench-Hard）[Suzgun等人，2023]）
學術考試（MMLU [Hendrycks等人，2021]）
代碼生成（HumanEval [Chen等人，2021]）

訓練數據集

持續預訓練

以下數據集用於持續預訓練：

Cosmopedia
Dclm-baseline-1.0
英文維基百科
FineMath-4+
日文維基百科
Laboro ParaCorpus
Swallow語料庫版本2（使用Swallow教育分類器（基於維基百科）過濾）
Swallow語料庫版本2（使用Swallow教育分類器過濾）
Swallow語料庫版本2（合成問答格式）
Swallow代碼版本0.3（從The Stack v2 train smol ids過濾，然後使用Llama-3.3-70B-Instruct進行重構）

Swallow語料庫版本2

我們通過從Common Crawl中提取高質量的日語文本構建了Swallow語料庫。在版本2中，我們擴大了Common Crawl的收集範圍，並修改了管道順序，以實現更靈活的質量過濾。對於Llama 3.1 Swallow v0.2，我們進一步優化了質量過濾和數據採樣策略，從而為預訓練選擇了更高質量的日語文本。對於Llama 3.3 Swallow 70B v0.4，我們使用Gemma 2 27B IT對語料庫中的教育網頁文檔進行釋義，生成了合成問答格式的文本。方法和分析的更多細節將在即將發表的論文中提供。

Swallow代碼版本0.3

我們通過從The Stack v2 train smol ids中過濾，然後使用Llama-3.3-70B-Instruct進行重構，構建了Swallow代碼版本0.3。在過濾過程中，我們刪除了有語法錯誤或pylint評分低於7的代碼文本。我們已經發布了過濾後的版本，即Swallow代碼版本0.1。在重構過程中，我們向Llama-3.3-70B-Instruct提供了一個提示，要求其遵循Google Python風格指南和編碼最佳實踐。

風險和侷限性

此處發佈的模型仍處於我們研發的早期階段，尚未進行調整以確保輸出符合人類意圖和安全考慮。

致謝

我們感謝Meta Research以慷慨的開放許可證發佈Llama 3.3。我們感謝亞馬遜網絡服務（AWS）提供對SageMaker HyperPod的訪問權限，這使得Llama 3.3 Swallow項目的訓練成為可能。我們獲得了以下各種支持：

AIST項目：“物理領域生成式AI基礎模型的研究與開發”
NEDO項目：“基於熟練人員視角的設計風險評估工作中支持判斷的人工智能應用技術開發”（JPNP18002），屬於“下一代人工智能和機器人核心集成技術開發”項目
MEXT項目：“建立確保生成式AI模型透明度和可靠性的研發中心”
AIST計劃：大型生成式AI開發支持計劃

許可證

META LLAMA 3.3社區許可證和Gemma使用條款

作者

以下是團隊成員：

如何引用

如果您認為我們的工作有幫助，請隨意引用以下論文：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{fujii2025rewritingpretrainingdataboosts,
      title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code}, 
      author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
      year={2025},
      eprint={2505.02881},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.02881}, 
}

參考文獻

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}