🚀 Llama3 Swallow - 基於Meta Llama 3構建
我們的Swallow模型在Llama 3家族的基礎上進行了持續預訓練,主要增加了日語語言數據。指令版本使用了監督微調(SFT)和聊天向量。其他模型的鏈接可在索引中找到。
🚀 快速開始
本倉庫提供了由Swallow-LLM開發的大語言模型。你可以閱讀我們的博客文章瞭解更多信息。
✨ 主要特性
- 基於Llama 3家族進行持續預訓練,增加了日語語言數據。
- 指令版本使用了監督微調(SFT)和聊天向量。
- 在多種日語和英語任務上表現出色。
📚 詳細文檔
模型發佈更新
我們很高興分享最新模型的發佈計劃:
Swallow模型索引
模型 |
Llama-3-Swallow |
Llama3 Swallow Instruct |
8B |
鏈接 |
鏈接 |
70B |
鏈接 |
鏈接 |

模型詳情
模型性能
日語任務
模型 |
大小 |
JCom.(4-shot,EM acc) |
JEMHopQA(4-shot,Char-F1) |
NIILC(4-shot,Char-F1) |
JSQuAD(4-shot,Char-F1) |
XL-Sum(1-shot,ROUGE-2) |
MGSM(4-shot,EM acc) |
WMT20-en-ja(4-shot,BLEU) |
WMT20-ja-en(4-shot,BLEU) |
JMMLU(5-shot,EM acc) |
JHumanEval(0-shot,pass@1) |
日語平均 |
Llama-2-7b |
7B |
0.2618 |
0.4914 |
0.3301 |
0.8001 |
0.1742 |
0.0560 |
0.1764 |
0.1742 |
0.2824 |
0.1250 |
0.2872 |
Swallow-7b-hf |
7B |
0.4888 |
0.5044 |
0.5925 |
0.8424 |
0.1823 |
0.1240 |
0.2505 |
0.1482 |
0.3219 |
0.0183 |
0.3473 |
Mistral-7B-v0.1 |
7B |
0.7471 |
0.4482 |
0.2691 |
0.8588 |
0.2026 |
0.1880 |
0.1430 |
0.1738 |
0.4213 |
0.2598 |
0.3712 |
Swallow-MS-7b-v0.1 |
7B |
0.8758 |
0.5153 |
0.5647 |
0.8762 |
0.1993 |
0.2400 |
0.2507 |
0.1667 |
0.4527 |
0.2335 |
0.4375 |
Qwen2-7B |
7B |
0.8776 |
0.4627 |
0.3766 |
0.8984 |
0.1716 |
0.5480 |
0.2080 |
0.1949 |
0.5871 |
0.4183 |
0.4805 |
Meta-Llama-3-8B |
8B |
0.8356 |
0.4454 |
0.4002 |
0.8881 |
0.1757 |
0.3320 |
0.2199 |
0.2087 |
0.4558 |
0.3311 |
0.4292 |
llama-3-youko-8b |
8B |
0.8660 |
0.4902 |
0.5155 |
0.8947 |
0.2127 |
0.2840 |
0.2740 |
0.2180 |
0.4493 |
0.2183 |
0.4423 |
Llama-3-Swallow-8B-v0.1 |
8B |
0.8945 |
0.4848 |
0.5640 |
0.8947 |
0.1981 |
0.4240 |
0.2758 |
0.2223 |
0.4699 |
0.2890 |
0.4717 |
英語任務
模型 |
大小 |
OpenBookQA(4-shot,Acc) |
TriviaQA(4-shot,EM acc) |
HellaSWAG(4-shot,Acc) |
SQuAD2.0(4-shot,EM acc) |
XWINO(4-shot,Acc) |
MMLU(5-shot,Acc) |
GSM8K(4-shot,EM acc) |
BBH(3-shot,CoT EM Acc) |
HumanEval(0-shot,pass@1) |
英語平均 |
Llama-2-7b |
7B |
0.3720 |
0.6385 |
0.5826 |
0.2911 |
0.9045 |
0.4590 |
0.1266 |
0.3993 |
0.1354 |
0.4343 |
Swallow-7b-hf |
7B |
0.3080 |
0.4921 |
0.5269 |
0.2608 |
0.8847 |
0.3918 |
0.0963 |
0.3531 |
0.0402 |
0.3727 |
Mistral-7B-v0.1 |
7B |
0.3740 |
0.7030 |
0.6260 |
0.3381 |
0.9067 |
0.6236 |
0.3851 |
0.5597 |
0.2841 |
0.5334 |
Swallow-MS-7b-v0.1 |
7B |
0.3480 |
0.5995 |
0.5798 |
0.3011 |
0.9015 |
0.5486 |
0.2669 |
0.4916 |
0.2732 |
0.4789 |
Qwen2-7B |
7B |
0.3740 |
0.6105 |
0.6006 |
0.3623 |
0.8916 |
0.7045 |
0.7748 |
0.5325 |
0.4622 |
0.5903 |
Meta-Llama-3-8B |
8B |
0.3760 |
0.7109 |
0.6124 |
0.3356 |
0.9032 |
0.6509 |
0.4936 |
0.6211 |
0.3793 |
0.5648 |
llama-3-youko-8b |
8B |
0.3500 |
0.6252 |
0.5885 |
0.3247 |
0.8959 |
0.5993 |
0.3571 |
0.5704 |
0.2793 |
0.5100 |
Llama-3-Swallow-8B-v0.1 |
8B |
0.3520 |
0.6563 |
0.5901 |
0.3507 |
0.9006 |
0.6152 |
0.4875 |
0.5936 |
0.3323 |
0.5420 |
評估基準
日語評估基準
我們使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交編號 #9b42d41)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下:
- 多項選擇題回答(JCommonsenseQA [Kurihara等人,2022])
- 開放式問題回答(JEMHopQA [Ishii等人,2024])
- 開放式問題回答(NIILC [関根,2003])
- 機器閱讀理解(JSQuAD [Kurihara等人,2022])
- 自動摘要(XL-Sum [Hasan等人,2021])
- 機器翻譯(WMT2020 ja-en [Barrault等人,2020])
- 機器翻譯(WMT2020 en-ja [Barrault等人,2020])
- 數學推理(MGSM [Shi等人,2023])
- 學術考試(JMMLU [尹ら,2024])
- 代碼生成(JHumanEval [佐藤ら,2024])
英語評估基準
我們使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下:
- 多項選擇題回答(OpenBookQA [Mihaylov等人,2018])
- 開放式問題回答(TriviaQA [Joshi等人,2017])
- 機器閱讀理解(SQuAD2 [Rajpurkar等人,2018])
- 常識推理(XWINO [Tikhonov和Ryabinin,2021])
- 自然語言推理(HellaSwag [Zellers等人,2019])
- 數學推理(GSM8K [Cobbe等人,2021])
- 推理(BBH (BIG-Bench-Hard) [Suzgun等人,2023])
- 學術考試(MMLU [Hendrycks等人,2021])
- 代碼生成(HumanEval [Chen等人,2021])
訓練數據集
持續預訓練
以下數據集用於持續預訓練:
風險與侷限
此處發佈的模型仍處於我們研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
致謝
我們感謝Meta Research以開放許可的方式發佈Llama 3,以便他人在此基礎上進行開發。
我們的項目得到了日本國立先進工業科學技術研究所的大型生成式人工智能開發支持計劃的支持。
許可證
META LLAMA 3社區許可證
作者
以下是團隊成員:
如何引用
如果您覺得我們的工作有幫助,請隨時引用我們:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
引用文獻
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}