Llama-3-Swallow-8B-v0.1オープンソース大規模モデル - 日本語処理能力の向上、無料デプロイで超実用的

ホーム

Llama 3 Swallow 8B V0.1

tokyotech-llmによって開発

Meta Llama 3をベースに構築された日本語強化大規模言語モデル。継続的な事前学習と指示微調整により日本語処理能力を向上

大規模言語モデル

Transformers

複数言語対応#日本語最適化 #多言語生成 #学術試験強化

ダウンロード数 2,230

リリース時間 : 5/20/2024

モデル概要

Llama3 SwallowはMeta Llama 3シリーズモデルを日本語データで強化学習したバリアントで、8Bと70Bの2つのパラメータ規模を持ち、英語と日本語のテキスト生成タスクをサポート

モデル特徴

日本語能力強化

大量の日本語データによる継続的事前学習で、日本語タスクのパフォーマンスを大幅に向上

バイリンガルサポート

英語と日本語の同時処理をサポートし、バイリンガルタスクで優れた性能を発揮

指示最適化バージョン

教師あり微調整(SFT)とチャットベクトル技術で最適化された指示バージョンを提供

モデル能力

日本語テキスト生成

英語テキスト生成

機械翻訳

質問応答システム

コード生成

数学的推論

要約生成

使用事例

自然言語処理

日本語質問応答システム

日本語ユーザー向けのインテリジェントQAアプリケーション構築

JCommonsenseQAベンチマークで89.45%の精度を達成

英日機械翻訳

高品質な英日双方向翻訳を実現

WMT20英日翻訳BLEUスコア0.2758

教育応用

日本語学習アシスタント

日本語学習者の言語練習と知識検索を支援

🚀 Llama3 Swallow - Meta Llama 3を使用して構築

当社のSwallowモデルは、Llama 3ファミリーから継続的に事前学習を行っており、主に日本語のデータを追加しています。Instructバージョンでは、教師あり微調整（SFT）とChat Vectorを使用しています。他のモデルへのリンクはインデックスに記載されています。

🚀 クイックスタート

本リポジトリは、Swallow-LLMによって開発された大規模言語モデルを提供しています。詳細については、ブログ記事をご覧ください。

✨ 主な機能

日本語と英語の両方の言語に対応した大規模言語モデル。
Llama 3をベースに、日本語データを追加して事前学習。
Instructバージョンでは教師あり微調整（SFT）とChat Vectorを使用。

📚 ドキュメント

モデルのリリース更新

2024年7月1日に、以下のモデルをリリースしました。

Swallowモデルインデックス

Model	Llama-3-Swallow	Llama3 Swallow Instruct
8B	Link	Link
70B	Link	Link

モデルの詳細

属性	详情
モデルタイプ	モデルアーキテクチャの詳細については、Llama 3 MODEL_CARDを参照してください。
言語	日本語、英語
ライブラリ	Megatron-LM
トークナイザー	トークナイザーの詳細については、Llama 3 blogを参照してください。
連絡先	swallow[at]nlp.c.titech.ac.jp

モデルの性能

日本語タスク

Model	Size	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	Ja Avg
		4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
		EM acc	Char-F1	Char-F1	Char-F1	ROUGE-2	EM acc	BLEU	BLEU	EM acc	pass@1
Llama-2-7b	7B	0.2618	0.4914	0.3301	0.8001	0.1742	0.0560	0.1764	0.1742	0.2824	0.1250	0.2872
Swallow-7b-hf	7B	0.4888	0.5044	0.5925	0.8424	0.1823	0.1240	0.2505	0.1482	0.3219	0.0183	0.3473
Mistral-7B-v0.1	7B	0.7471	0.4482	0.2691	0.8588	0.2026	0.1880	0.1430	0.1738	0.4213	0.2598	0.3712
Swallow-MS-7b-v0.1	7B	0.8758	0.5153	0.5647	0.8762	0.1993	0.2400	0.2507	0.1667	0.4527	0.2335	0.4375
Qwen2-7B	7B	0.8776	0.4627	0.3766	0.8984	0.1716	0.5480	0.2080	0.1949	0.5871	0.4183	0.4805
Meta-Llama-3-8B	8B	0.8356	0.4454	0.4002	0.8881	0.1757	0.3320	0.2199	0.2087	0.4558	0.3311	0.4292
llama-3-youko-8b	8B	0.8660	0.4902	0.5155	0.8947	0.2127	0.2840	0.2740	0.2180	0.4493	0.2183	0.4423
Llama-3-Swallow-8B-v0.1	8B	0.8945	0.4848	0.5640	0.8947	0.1981	0.4240	0.2758	0.2223	0.4699	0.2890	0.4717

英語タスク

Model	Size	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	BBH	HumanEval	En Avg
		4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	3-shot	0-shot
		Acc	EM acc	Acc	EM acc	Acc	Acc	EM acc	CoT EM Acc	pass@1
Llama-2-7b	7B	0.3720	0.6385	0.5826	0.2911	0.9045	0.4590	0.1266	0.3993	0.1354	0.4343
Swallow-7b-hf	7B	0.3080	0.4921	0.5269	0.2608	0.8847	0.3918	0.0963	0.3531	0.0402	0.3727
Mistral-7B-v0.1	7B	0.3740	0.7030	0.6260	0.3381	0.9067	0.6236	0.3851	0.5597	0.2841	0.5334
Swallow-MS-7b-v0.1	7B	0.3480	0.5995	0.5798	0.3011	0.9015	0.5486	0.2669	0.4916	0.2732	0.4789
Qwen2-7B	7B	0.3740	0.6105	0.6006	0.3623	0.8916	0.7045	0.7748	0.5325	0.4622	0.5903
Meta-Llama-3-8B	8B	0.3760	0.7109	0.6124	0.3356	0.9032	0.6509	0.4936	0.6211	0.3793	0.5648
llama-3-youko-8b	8B	0.3500	0.6252	0.5885	0.3247	0.8959	0.5993	0.3571	0.5704	0.2793	0.5100
Llama-3-Swallow-8B-v0.1	8B	0.3520	0.6563	0.5901	0.3507	0.9006	0.6152	0.4875	0.5936	0.3323	0.5420

評価ベンチマーク

日本語評価ベンチマーク

llm-jp-eval(v1.3.0)、JP Language Model Evaluation Harness(コミット #9b42d41)、Code Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通りです。

選択式質問応答（JCommonsenseQA [Kurihara et al., 2022]）
自由記述式質問応答（JEMHopQA [Ishii et al., 2024]）
自由記述式質問応答（NIILC [関根, 2003]）
機械読解（JSQuAD [Kurihara et al., 2022]）
自動要約（XL-Sum [Hasan et al., 2021]）
機械翻訳（WMT2020 ja-en [Barrault et al., 2020]）
機械翻訳（WMT2020 en-ja [Barrault et al., 2020]）
数学的推論（MGSM [Shi et al., 2023]）
学術試験（JMMLU [尹ら, 2024]）
コード生成（JHumanEval [佐藤ら, 2024]）

英語評価ベンチマーク

Language Model Evaluation Harness(v.0.4.2)とCode Generation LM Evaluation Harness(コミット #0261c52)を使用しました。詳細は以下の通りです。

選択式質問応答（OpenBookQA [Mihaylov et al., 2018]）
自由記述式質問応答（TriviaQA [Joshi et al., 2017]）
機械読解（SQuAD2 [Rajpurkar et al., 2018]）
常識推論（XWINO [Tikhonov and Ryabinin, 2021]）
自然言語推論（HellaSwag [Zellers et al., 2019]）
数学的推論（GSM8K [Cobbe et al., 2021]）
推論（BBH (BIG-Bench-Hard) [Suzgun et al., 2023]）
学術試験（MMLU [Hendrycks et al., 2021]）
コード生成（HumanEval [Chen et al., 2021]）

学習データセット

継続的事前学習

継続的事前学習には、以下のデータセットを使用しました。

リスクと制限

ここで公開されているモデルは、まだ研究開発の初期段階にあり、出力が人間の意図や安全性の考慮に沿っていることを保証するために調整されていません。

謝辞

Meta ResearchがLlama 3をオープンライセンスで公開し、他の人がそれを基に構築できるようにしてくれたことに感謝します。

当プロジェクトは、国立研究開発法人産業技術総合研究所の大規模生成AI開発支援事業によって支援されています。

ライセンス

META LLAMA 3 COMMUNITY LICENSE

著者

以下はチームメンバーです。

東京工業大学岡崎研究室のメンバー：
東京工業大学横田研究室のメンバー：
国立研究開発法人産業技術総合研究所人工知能研究センターのメンバー：
- 高村洋弥

引用方法

当社の研究が役立つと思われる場合は、ご自由に引用してください。

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

参考文献

@article{llama3modelcard,
    title={Llama 3 Model Card},
    author={AI@Meta},
    year={2024},
    url = {https://github.com/meta-llama/llama3/blob/main/MODEL_CARD.md}
}