Llama 3 Swallow 8B V0.1
基於Meta Llama 3構建的日語增強大語言模型,通過持續預訓練和指令微調提升日語處理能力
下載量 2,230
發布時間 : 5/20/2024
模型概述
Llama3 Swallow是基於Meta Llama 3系列模型進行日語數據增強訓練的變體,包含8B和70B兩種參數規模,支持英語和日語文本生成任務
模型特點
日語能力增強
通過大量日語數據持續預訓練,顯著提升日語任務表現
雙語支持
同時支持英語和日語處理,在雙語任務中表現優異
指令優化版本
提供經過監督微調(SFT)和聊天向量技術優化的指令版本
模型能力
日語文本生成
英語文本生成
機器翻譯
問答系統
代碼生成
數學推理
摘要生成
使用案例
自然語言處理
日語問答系統
構建面向日語用戶的智能問答應用
在JCommonsenseQA基準上達到89.45%準確率
英日機器翻譯
實現高質量英日雙向翻譯
WMT20英日翻譯BLEU得分0.2758
教育應用
日語學習助手
輔助日語學習者進行語言練習和知識查詢
🚀 Llama3 Swallow - 基於Meta Llama 3構建
我們的Swallow模型在Llama 3家族的基礎上進行了持續預訓練,主要增加了日語語言數據。指令版本使用了監督微調(SFT)和聊天向量。其他模型的鏈接可在索引中找到。
🚀 快速開始
本倉庫提供了由Swallow-LLM開發的大語言模型。你可以閱讀我們的博客文章瞭解更多信息。
✨ 主要特性
- 基於Llama 3家族進行持續預訓練,增加了日語語言數據。
- 指令版本使用了監督微調(SFT)和聊天向量。
- 在多種日語和英語任務上表現出色。
📚 詳細文檔
模型發佈更新
我們很高興分享最新模型的發佈計劃:
- 2024年7月1日:發佈了Llama-3-Swallow-8B-v0.1、Llama-3-Swallow-8B-Instruct-v0.1、Llama-3-Swallow-70B-v0.1和Llama-3-Swallow-70B-Instruct-v0.1。
Swallow模型索引
模型 | Llama-3-Swallow | Llama3 Swallow Instruct |
---|---|---|
8B | 鏈接 | 鏈接 |
70B | 鏈接 | 鏈接 |
模型詳情
屬性 | 詳情 |
---|---|
模型類型 | 請參考Llama 3 MODEL_CARD瞭解模型架構詳情。 |
支持語言 | 日語、英語 |
庫 | Megatron-LM |
分詞器 | 請參考Llama 3博客瞭解分詞器詳情。 |
聯繫方式 | swallow[at]nlp.c.titech.ac.jp |
模型性能
日語任務
模型 | 大小 | JCom.(4-shot,EM acc) | JEMHopQA(4-shot,Char-F1) | NIILC(4-shot,Char-F1) | JSQuAD(4-shot,Char-F1) | XL-Sum(1-shot,ROUGE-2) | MGSM(4-shot,EM acc) | WMT20-en-ja(4-shot,BLEU) | WMT20-ja-en(4-shot,BLEU) | JMMLU(5-shot,EM acc) | JHumanEval(0-shot,pass@1) | 日語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|---|
Llama-2-7b | 7B | 0.2618 | 0.4914 | 0.3301 | 0.8001 | 0.1742 | 0.0560 | 0.1764 | 0.1742 | 0.2824 | 0.1250 | 0.2872 |
Swallow-7b-hf | 7B | 0.4888 | 0.5044 | 0.5925 | 0.8424 | 0.1823 | 0.1240 | 0.2505 | 0.1482 | 0.3219 | 0.0183 | 0.3473 |
Mistral-7B-v0.1 | 7B | 0.7471 | 0.4482 | 0.2691 | 0.8588 | 0.2026 | 0.1880 | 0.1430 | 0.1738 | 0.4213 | 0.2598 | 0.3712 |
Swallow-MS-7b-v0.1 | 7B | 0.8758 | 0.5153 | 0.5647 | 0.8762 | 0.1993 | 0.2400 | 0.2507 | 0.1667 | 0.4527 | 0.2335 | 0.4375 |
Qwen2-7B | 7B | 0.8776 | 0.4627 | 0.3766 | 0.8984 | 0.1716 | 0.5480 | 0.2080 | 0.1949 | 0.5871 | 0.4183 | 0.4805 |
Meta-Llama-3-8B | 8B | 0.8356 | 0.4454 | 0.4002 | 0.8881 | 0.1757 | 0.3320 | 0.2199 | 0.2087 | 0.4558 | 0.3311 | 0.4292 |
llama-3-youko-8b | 8B | 0.8660 | 0.4902 | 0.5155 | 0.8947 | 0.2127 | 0.2840 | 0.2740 | 0.2180 | 0.4493 | 0.2183 | 0.4423 |
Llama-3-Swallow-8B-v0.1 | 8B | 0.8945 | 0.4848 | 0.5640 | 0.8947 | 0.1981 | 0.4240 | 0.2758 | 0.2223 | 0.4699 | 0.2890 | 0.4717 |
英語任務
模型 | 大小 | OpenBookQA(4-shot,Acc) | TriviaQA(4-shot,EM acc) | HellaSWAG(4-shot,Acc) | SQuAD2.0(4-shot,EM acc) | XWINO(4-shot,Acc) | MMLU(5-shot,Acc) | GSM8K(4-shot,EM acc) | BBH(3-shot,CoT EM Acc) | HumanEval(0-shot,pass@1) | 英語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
Llama-2-7b | 7B | 0.3720 | 0.6385 | 0.5826 | 0.2911 | 0.9045 | 0.4590 | 0.1266 | 0.3993 | 0.1354 | 0.4343 |
Swallow-7b-hf | 7B | 0.3080 | 0.4921 | 0.5269 | 0.2608 | 0.8847 | 0.3918 | 0.0963 | 0.3531 | 0.0402 | 0.3727 |
Mistral-7B-v0.1 | 7B | 0.3740 | 0.7030 | 0.6260 | 0.3381 | 0.9067 | 0.6236 | 0.3851 | 0.5597 | 0.2841 | 0.5334 |
Swallow-MS-7b-v0.1 | 7B | 0.3480 | 0.5995 | 0.5798 | 0.3011 | 0.9015 | 0.5486 | 0.2669 | 0.4916 | 0.2732 | 0.4789 |
Qwen2-7B | 7B | 0.3740 | 0.6105 | 0.6006 | 0.3623 | 0.8916 | 0.7045 | 0.7748 | 0.5325 | 0.4622 | 0.5903 |
Meta-Llama-3-8B | 8B | 0.3760 | 0.7109 | 0.6124 | 0.3356 | 0.9032 | 0.6509 | 0.4936 | 0.6211 | 0.3793 | 0.5648 |
llama-3-youko-8b | 8B | 0.3500 | 0.6252 | 0.5885 | 0.3247 | 0.8959 | 0.5993 | 0.3571 | 0.5704 | 0.2793 | 0.5100 |
Llama-3-Swallow-8B-v0.1 | 8B | 0.3520 | 0.6563 | 0.5901 | 0.3507 | 0.9006 | 0.6152 | 0.4875 | 0.5936 | 0.3323 | 0.5420 |
評估基準
日語評估基準
我們使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交編號 #9b42d41)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下:
- 多項選擇題回答(JCommonsenseQA [Kurihara等人,2022])
- 開放式問題回答(JEMHopQA [Ishii等人,2024])
- 開放式問題回答(NIILC [関根,2003])
- 機器閱讀理解(JSQuAD [Kurihara等人,2022])
- 自動摘要(XL-Sum [Hasan等人,2021])
- 機器翻譯(WMT2020 ja-en [Barrault等人,2020])
- 機器翻譯(WMT2020 en-ja [Barrault等人,2020])
- 數學推理(MGSM [Shi等人,2023])
- 學術考試(JMMLU [尹ら,2024])
- 代碼生成(JHumanEval [佐藤ら,2024])
英語評估基準
我們使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下:
- 多項選擇題回答(OpenBookQA [Mihaylov等人,2018])
- 開放式問題回答(TriviaQA [Joshi等人,2017])
- 機器閱讀理解(SQuAD2 [Rajpurkar等人,2018])
- 常識推理(XWINO [Tikhonov和Ryabinin,2021])
- 自然語言推理(HellaSwag [Zellers等人,2019])
- 數學推理(GSM8K [Cobbe等人,2021])
- 推理(BBH (BIG-Bench-Hard) [Suzgun等人,2023])
- 學術考試(MMLU [Hendrycks等人,2021])
- 代碼生成(HumanEval [Chen等人,2021])
訓練數據集
持續預訓練
以下數據集用於持續預訓練:
風險與侷限
此處發佈的模型仍處於我們研發的早期階段,尚未進行調整以確保輸出符合人類意圖和安全考慮。
致謝
我們感謝Meta Research以開放許可的方式發佈Llama 3,以便他人在此基礎上進行開發。
我們的項目得到了日本國立先進工業科學技術研究所的大型生成式人工智能開發支持計劃的支持。
許可證
作者
以下是團隊成員:
- 來自東京工業大學岡崎實驗室的成員:
- 來自東京工業大學橫田實驗室的成員:
- 來自日本產業技術綜合研究所人工智能研究中心的成員:
如何引用
如果您覺得我們的工作有幫助,請隨時引用我們:
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
引用文獻
@article{llama3modelcard,
title={Llama 3 Model Card},
author={AI@Meta},
year={2024},
url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98