Llama-3-Swallow-8B-v0.1開源大模型 - 提升日語處理能力，免費部署超實用

首頁

Llama 3 Swallow 8B V0.1

由tokyotech-llm開發

基於Meta Llama 3構建的日語增強大語言模型，通過持續預訓練和指令微調提升日語處理能力

大型語言模型

Transformers

支持多種語言#日語優化 #多語言生成 #學術考試增強

下載量 2,230

發布時間 : 5/20/2024

模型概述

Llama3 Swallow是基於Meta Llama 3系列模型進行日語數據增強訓練的變體，包含8B和70B兩種參數規模，支持英語和日語文本生成任務

模型特點

日語能力增強

通過大量日語數據持續預訓練，顯著提升日語任務表現

雙語支持

同時支持英語和日語處理，在雙語任務中表現優異

指令優化版本

提供經過監督微調(SFT)和聊天向量技術優化的指令版本

模型能力

日語文本生成

英語文本生成

機器翻譯

問答系統

代碼生成

數學推理

摘要生成

使用案例

自然語言處理

日語問答系統

構建面向日語用戶的智能問答應用

在JCommonsenseQA基準上達到89.45%準確率

英日機器翻譯

實現高質量英日雙向翻譯

WMT20英日翻譯BLEU得分0.2758

教育應用

日語學習助手

輔助日語學習者進行語言練習和知識查詢

🚀 Llama3 Swallow - 基於Meta Llama 3構建

我們的Swallow模型在Llama 3家族的基礎上進行了持續預訓練，主要增加了日語語言數據。指令版本使用了監督微調（SFT）和聊天向量。其他模型的鏈接可在索引中找到。

🚀 快速開始

本倉庫提供了由Swallow-LLM開發的大語言模型。你可以閱讀我們的博客文章瞭解更多信息。

✨ 主要特性

基於Llama 3家族進行持續預訓練，增加了日語語言數據。
指令版本使用了監督微調（SFT）和聊天向量。
在多種日語和英語任務上表現出色。

📚 詳細文檔

模型發佈更新

我們很高興分享最新模型的發佈計劃：

2024年7月1日：發佈了Llama-3-Swallow-8B-v0.1、Llama-3-Swallow-8B-Instruct-v0.1、Llama-3-Swallow-70B-v0.1和Llama-3-Swallow-70B-Instruct-v0.1。

Swallow模型索引

模型	Llama-3-Swallow	Llama3 Swallow Instruct
8B	鏈接	鏈接
70B	鏈接	鏈接

模型詳情

屬性	詳情
模型類型	請參考Llama 3 MODEL_CARD瞭解模型架構詳情。
支持語言	日語、英語
庫	Megatron-LM
分詞器	請參考Llama 3博客瞭解分詞器詳情。
聯繫方式	swallow[at]nlp.c.titech.ac.jp

模型性能

日語任務

模型	大小	JCom.（4-shot，EM acc）	JEMHopQA（4-shot，Char-F1）	NIILC（4-shot，Char-F1）	JSQuAD（4-shot，Char-F1）	XL-Sum（1-shot，ROUGE-2）	MGSM（4-shot，EM acc）	WMT20-en-ja（4-shot，BLEU）	WMT20-ja-en（4-shot，BLEU）	JMMLU（5-shot，EM acc）	JHumanEval（0-shot，pass@1）	日語平均
Llama-2-7b	7B	0.2618	0.4914	0.3301	0.8001	0.1742	0.0560	0.1764	0.1742	0.2824	0.1250	0.2872
Swallow-7b-hf	7B	0.4888	0.5044	0.5925	0.8424	0.1823	0.1240	0.2505	0.1482	0.3219	0.0183	0.3473
Mistral-7B-v0.1	7B	0.7471	0.4482	0.2691	0.8588	0.2026	0.1880	0.1430	0.1738	0.4213	0.2598	0.3712
Swallow-MS-7b-v0.1	7B	0.8758	0.5153	0.5647	0.8762	0.1993	0.2400	0.2507	0.1667	0.4527	0.2335	0.4375
Qwen2-7B	7B	0.8776	0.4627	0.3766	0.8984	0.1716	0.5480	0.2080	0.1949	0.5871	0.4183	0.4805
Meta-Llama-3-8B	8B	0.8356	0.4454	0.4002	0.8881	0.1757	0.3320	0.2199	0.2087	0.4558	0.3311	0.4292
llama-3-youko-8b	8B	0.8660	0.4902	0.5155	0.8947	0.2127	0.2840	0.2740	0.2180	0.4493	0.2183	0.4423
Llama-3-Swallow-8B-v0.1	8B	0.8945	0.4848	0.5640	0.8947	0.1981	0.4240	0.2758	0.2223	0.4699	0.2890	0.4717

英語任務

模型	大小	OpenBookQA（4-shot，Acc）	TriviaQA（4-shot，EM acc）	HellaSWAG（4-shot，Acc）	SQuAD2.0（4-shot，EM acc）	XWINO（4-shot，Acc）	MMLU（5-shot，Acc）	GSM8K（4-shot，EM acc）	BBH（3-shot，CoT EM Acc）	HumanEval（0-shot，pass@1）	英語平均
Llama-2-7b	7B	0.3720	0.6385	0.5826	0.2911	0.9045	0.4590	0.1266	0.3993	0.1354	0.4343
Swallow-7b-hf	7B	0.3080	0.4921	0.5269	0.2608	0.8847	0.3918	0.0963	0.3531	0.0402	0.3727
Mistral-7B-v0.1	7B	0.3740	0.7030	0.6260	0.3381	0.9067	0.6236	0.3851	0.5597	0.2841	0.5334
Swallow-MS-7b-v0.1	7B	0.3480	0.5995	0.5798	0.3011	0.9015	0.5486	0.2669	0.4916	0.2732	0.4789
Qwen2-7B	7B	0.3740	0.6105	0.6006	0.3623	0.8916	0.7045	0.7748	0.5325	0.4622	0.5903
Meta-Llama-3-8B	8B	0.3760	0.7109	0.6124	0.3356	0.9032	0.6509	0.4936	0.6211	0.3793	0.5648
llama-3-youko-8b	8B	0.3500	0.6252	0.5885	0.3247	0.8959	0.5993	0.3571	0.5704	0.2793	0.5100
Llama-3-Swallow-8B-v0.1	8B	0.3520	0.6563	0.5901	0.3507	0.9006	0.6152	0.4875	0.5936	0.3323	0.5420

評估基準

日語評估基準

我們使用了llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(提交編號 #9b42d41)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下：

多項選擇題回答（JCommonsenseQA [Kurihara等人，2022]）
開放式問題回答（JEMHopQA [Ishii等人，2024]）
開放式問題回答（NIILC [関根，2003]）
機器閱讀理解（JSQuAD [Kurihara等人，2022]）
自動摘要（XL-Sum [Hasan等人，2021]）
機器翻譯（WMT2020 ja-en [Barrault等人，2020]）
機器翻譯（WMT2020 en-ja [Barrault等人，2020]）
數學推理（MGSM [Shi等人，2023]）
學術考試（JMMLU [尹ら，2024]）
代碼生成（JHumanEval [佐藤ら，2024]）

英語評估基準

我們使用了Language Model Evaluation Harness(v.0.4.2)和Code Generation LM Evaluation Harness(提交編號 #0261c52)。詳情如下：

多項選擇題回答（OpenBookQA [Mihaylov等人，2018]）
開放式問題回答（TriviaQA [Joshi等人，2017]）
機器閱讀理解（SQuAD2 [Rajpurkar等人，2018]）
常識推理（XWINO [Tikhonov和Ryabinin，2021]）
自然語言推理（HellaSwag [Zellers等人，2019]）
數學推理（GSM8K [Cobbe等人，2021]）
推理（BBH (BIG-Bench-Hard) [Suzgun等人，2023]）
學術考試（MMLU [Hendrycks等人，2021]）
代碼生成（HumanEval [Chen等人，2021]）

訓練數據集

持續預訓練

以下數據集用於持續預訓練：

風險與侷限

此處發佈的模型仍處於我們研發的早期階段，尚未進行調整以確保輸出符合人類意圖和安全考慮。

致謝

我們感謝Meta Research以開放許可的方式發佈Llama 3，以便他人在此基礎上進行開發。

我們的項目得到了日本國立先進工業科學技術研究所的大型生成式人工智能開發支持計劃的支持。

許可證

META LLAMA 3社區許可證

作者

以下是團隊成員：

如何引用

如果您覺得我們的工作有幫助，請隨時引用我們：

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

引用文獻

@article{llama3modelcard,
    title={Llama 3 Model Card},
    author={AI@Meta},
    year={2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}