Llama-3.3-Swallow-70B-v0.4オープンソース大規模言語モデル - 英語と日本語の双方向対話をサポート

ホーム

Llama 3.3 Swallow 70B V0.4

tokyotech-llmによって開発

Llama 3.3 Swallowは700億パラメータの大規模言語モデルで、Meta Llama 3.3をベースに構築され、英語能力を維持しながら日本語能力を強化しています。

大規模言語モデル

Transformers

複数言語対応#日本語能力強化 #バイリンガル大規模言語モデル #持続的事前学習

ダウンロード数 1,950

リリース時間 : 2/17/2025

モデル概要

Llama 3.3 Swallowは、Meta Llama 3.3モデルに対して持続的事前学習を行い、大規模な日本語と英語のコーパスを用いてバイリンガル処理能力を強化して構築されました。

モデル特徴

バイリンガル能力強化

英語能力を維持した上で、日本語処理能力を大幅に向上させました。

持続的事前学習

大規模で多様なコーパスを用いて持続的事前学習を行い、モデルの性能を向上させます。

複数のモデルバリエーション

異なるバージョンと仕様のモデルを提供し、様々なニーズに対応します。

モデル能力

日本語テキスト生成

英語テキスト生成

機械翻訳

質問応答システム

コード生成

数学的推論

使用事例

教育

日本語学習支援

学生が日本語テキストを理解し生成するのを支援します。

日本語評価ベンチマークで優れた成績を収めています。

翻訳

日英相互翻訳

日本語と英語の機械翻訳タスクに使用します。

WMT20翻訳タスクで良好な結果を得ています。

プログラミング

コード生成

Google Pythonスタイルガイドに沿ったコードを生成します。

JHumanEval評価で優れた成績を収めています。

🚀 Llama 3.3 Swallow - Llamaをベースに構築

Llama 3.3 Swallowは、700億パラメータの大規模言語モデルです。このモデルは、Meta Llama 3.3モデルをベースに、継続的な事前学習を行うことで構築されています。これにより、英語能力を維持したまま、元のLlama 3.3の日本語能力を強化しています。事前学習には、大型の日本語ウェブコーパス（Swallowコーパスバージョン2）、日本語と英語のウィキペディア記事、数学やコーディング関連の内容など、約3150億個のトークンを使用しています（詳細は、基礎モデルの学習データセットのセクションを参照）。指令調整モデル（Instruct）は、日本語用に構築された合成データを用いて、教師あり微調整（SFT）を行うことで構築されています。他のモデルバリエーションを見るには、Swallowモデルインデックスのセクションを参照してください。

🚀 クイックスタート

Llama 3.3 Swallowは、英語と日本語のシナリオで強力な言語処理能力を提供します。モデルのHugging Faceのリンクにアクセスすることで、異なるバージョンのモデルを使用できます。

✨ 主な機能

バイリンガル能力の強化：英語能力を維持した上で、日本語の処理能力を大幅に向上させています。
継続的な事前学習：大規模かつ多様なコーパスを用いて継続的な事前学習を行い、モデルの性能を向上させています。
複数のモデルバリエーション：異なるバージョンや仕様のモデルを提供し、さまざまなニーズに対応しています。

📚 ドキュメント

リリース履歴

2025年3月10日：Llama-3.3-Swallow-70B-Instruct-v0.4とLlama-3.3-Swallow-70B-v0.4をリリース。
2024年12月30日：Llama-3.1-Swallow-70B-Instruct-v0.3をリリース。
2024年12月23日：Llama-3.1-Swallow-8B-Instruct-v0.3をリリース。
2024年11月11日：Llama-3.1-Swallow-8B-v0.2とLlama-3.1-Swallow-8B-Instruct-v0.2をリリース。
2024年10月8日：Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1、Llama-3.1-Swallow-70B-Instruct-v0.1をリリース。

Swallowモデルインデックス

モデル	Llama-3.1-Swallow v0.1	Llama-3.1-Swallow-Instruct v0.1	Llama-3.1-Swallow v0.2	Llama-3.1-Swallow-Instruct v0.2	Llama-3.1-Swallow-Instruct v0.3	Llama-3.3-Swallow v0.4	Llama-3.3-Swallow-Instruct v0.4
8B	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace
70B	🐱 HuggingFace	🐱 HuggingFace			🐱 HuggingFace	🐱 HuggingFace	🐱 HuggingFace

このウェブサイトhttps://swallow-llm.github.io/では、Swallowチームが開発した大規模言語モデルを提供しています。

モデル詳細

属性	詳細
モデルタイプ	モデルアーキテクチャの詳細については、Llama 3.1 MODEL_CARDを参照してください。
対応言語	日本語、英語
ライブラリ	Megatron-LM
トークナイザー	トークナイザーの詳細については、Llama 3.1ブログを参照してください。
連絡先	swallow[at]nlp.c.titech.ac.jp

モデル性能

日本語タスク

モデル	JCom.	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en	JMMLU	JHumanEval	日本語平均
	4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot	5-shot	0-shot
	EM正解率	文字F1値	文字F1値	文字F1値	ROUGE-2	EM正解率	BLEU	BLEU	EM正解率	pass@1
Qwen2-72B	0.960	0.620	0.561	0.926	0.238	0.768	0.275	0.241	0.782	0.561	0.593
Qwen2.5-72B	0.972	0.611	0.619	0.930	0.279	0.828	0.287	0.252	0.804	0.648	0.623
Sarashina2-70B	0.929	0.717	0.668	0.929	0.190	0.488	0.313	0.243	0.592	0.235	0.530
Llama 3 70B	0.946	0.606	0.589	0.922	0.228	0.664	0.286	0.252	0.705	0.491	0.569
Llama 3.1 70B	0.946	0.616	0.603	0.925	0.228	0.672	0.287	0.257	0.669	0.462	0.566
Llama 3 Youko 70B	0.946	0.602	0.610	0.923	0.242	0.684	0.292	0.250	0.704	0.463	0.571
Llama 3 Swallow 70B	0.968	0.675	0.684	0.923	0.239	0.708	0.307	0.255	0.706	0.477	0.594
Llama 3.1 Swallow 70B	0.955	0.645	0.678	0.923	0.272	0.684	0.320	0.259	0.709	0.487	0.593
Llama 3.3 Swallow 70B v0.4	0.967	0.671	0.732	0.924	0.283	0.776	0.327	0.260	0.742	0.604	0.629

英語タスク

モデル	OpenBookQA	TriviaQA	HellaSWAG	SQuAD2.0	XWINO	MMLU	GSM8K	MATH	BBH	HumanEval	英語平均
	4-shot	4-shot	4-shot	4-shot	4-shot	5-shot	4-shot	4-shot	3-shot	0-shot
	正解率	EM正解率	正解率	EM正解率	正解率	正解率	EM正解率	CoT EM正解率	CoT EM正解率	pass@1
Qwen2-72B	0.418	0.790	0.677	0.673	0.915	0.842	0.893	0.560	0.643	0.608	0.702
Qwen2.5-72B	0.416	0.760	0.685	0.693	0.901	0.861	0.870	0.626	0.727	0.554	0.709
Sarashina2-70B	0.388	0.537	0.628	0.675	0.917	0.630	0.011	0.206	0.639	0.281	0.491
Llama 3 70B	0.440	0.826	0.690	0.618	0.920	0.787	0.801	0.446	0.829	0.527	0.689
Llama 3.1 70B	0.450	0.829	0.690	0.605	0.920	0.786	0.798	0.434	0.655	0.546	0.671
Llama 3 Youko 70B	0.436	0.829	0.690	0.610	0.922	0.785	0.797	0.408	0.826	0.412	0.671
Llama 3 Swallow 70B	0.430	0.823	0.682	0.628	0.923	0.774	0.817	0.414	0.734	0.499	0.672
Llama 3.1 Swallow 70B v0.1	0.428	0.826	0.690	0.612	0.927	0.772	0.809	0.380	0.806	0.540	0.679
Llama 3.1 Swallow 70B v0.4	0.424	0.817	0.683	0.641	0.920	0.802	0.863	0.496	0.754	0.709	0.711

評価ベンチマーク

評価スクリプトは、swallow-llm/swallow-evaluationにあり、タグはv202411です。

日本語評価ベンチマーク

llm-jp-eval(v1.3.0)、JP言語モデル評価セット（コミット番号9b42d41）、コード生成LM評価セット（コミット番号0261c52）を使用しています。詳細は以下の通りです。

多肢選択問題回答（JCommonsenseQA [Kuriharaら, 2022]）
オープンエンド問題回答（JEMHopQA [Ishiiら, 2024]）
オープンエンド問題回答（NIILC [Èñ¢Ê†π, 2003]）
機械読解（JSQuAD [Kuriharaら, 2022]）
自動要約（XL-Sum [Hasanら, 2021]）
機械翻訳（WMT2020 ja-en [Barraultら, 2020]）
機械翻訳（WMT2020 en-ja [Barraultら, 2020]）
数学推論（MGSM [Shiら, 2023]）
学術試験（JMMLU [Â∞π„Çâ, 2024]）
コード生成（JHumanEval [‰ΩêËó§„Çâ, 2024]）

英語評価ベンチマーク

言語モデル評価セット（v.0.4.2）とコード生成LM評価セット（コミット番号0261c52）を使用しています。詳細は以下の通りです。

多肢選択問題回答（OpenBookQA [Mihaylovら, 2018]）
オープンエンド問題回答（TriviaQA [Joshiら, 2017]）
機械読解（SQuAD2 [Rajpurkarら, 2018]）
常識推論（XWINO [TikhonovとRyabinin, 2021]）
自然言語推論（HellaSwag [Zellersら, 2019]）
数学推論（GSM8K [Cobbeら, 2021]）
数学推論（MATH [Hendrycksら, 2022][Lightmanら, 2024]）
推論（BBH（BIG-Bench-Hard）[Suzgunら, 2023]）
学術試験（MMLU [Hendrycksら, 2021]）
コード生成（HumanEval [Chenら, 2021]）

学習データセット

継続的な事前学習

以下のデータセットを継続的な事前学習に使用しています。

Cosmopedia
Dclm-baseline-1.0
英語ウィキペディア
FineMath-4+
日本語ウィキペディア
Laboro ParaCorpus
Swallowコーパスバージョン2（Swallow教育分類器（ウィキペディアベース）でフィルタリング）
Swallowコーパスバージョン2（Swallow教育分類器でフィルタリング）
Swallowコーパスバージョン2（合成質問応答形式）
Swallowコードバージョン0.3（The Stack v2 train smol idsからフィルタリングし、Llama-3.3-70B-Instructを使用して再構築）

Swallowコーパスバージョン2

Common Crawlから高品質の日本語テキストを抽出することで、Swallowコーパスを構築しています。バージョン2では、Common Crawlの収集範囲を拡大し、パイプラインの順序を変更することで、より柔軟な品質フィルタリングを実現しています。Llama 3.1 Swallow v0.2では、品質フィルタリングとデータサンプリング戦略をさらに最適化し、事前学習により高品質の日本語テキストを選択しています。Llama 3.3 Swallow 70B v0.4では、Gemma 2 27B ITを使用して、コーパス内の教育用ウェブページドキュメントを言い換え、合成質問応答形式のテキストを生成しています。方法と分析の詳細は、近日公開される論文で提供されます。

Swallowコードバージョン0.3

The Stack v2 train smol idsからフィルタリングし、Llama-3.3-70B-Instructを使用して再構築することで、Swallowコードバージョン0.3を構築しています。フィルタリングの過程で、構文エラーがあるコードテキストやpylintスコアが7未満のものを削除しています。フィルタリング後のバージョンであるSwallowコードバージョン0.1を公開しています。再構築の過程では、Llama-3.3-70B-Instructに対して、Google Pythonスタイルガイドとコーディングのベストプラクティスに従うように指示を与えています。

リスクと制限事項

ここで公開されているモデルは、まだ開発の初期段階にあり、出力が人間の意図やセキュリティ上の考慮に沿うように調整されていません。

謝辞

Meta ResearchがLlama 3.3を寛大なオープンライセンスで公開してくれたことに感謝します。また、アマゾンウェブサービス（AWS）がSageMaker HyperPodへのアクセスを提供してくれたことで、Llama 3.3 Swallowプロジェクトの学習が可能になりました。以下の様々な支援を得ています。

AISTプロジェクト：「物理領域の生成型AI基礎モデルの研究と開発」
NEDOプロジェクト：「熟練者の視点に基づく設計リスク評価作業における判断支援AI応用技術開発」（JPNP18002）、「次世代AIとロボットの核心集積技術開発」プロジェクトの一部
MEXTプロジェクト：「生成型AIモデルの透明性と信頼性を確保する研究開発拠点の構築」
AIST計画：大型生成型AI開発支援計画

📄 ライセンス

META LLAMA 3.3コミュニティライセンスとGemma利用規約

作者

以下はチームメンバーです。

東京工業大学科学研究所岡崎研究室のメンバー：
東京工業大学科学研究所横田研究室のメンバー：
国立研究開発法人産業技術総合研究所人工知能研究センターのメンバー：
- 高村宏也

引用方法

もし当チームの研究が役立ったと思われる場合は、以下の論文を引用していただけると幸いです。

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@misc{fujii2025rewritingpretrainingdataboosts,
      title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code}, 
      author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
      year={2025},
      eprint={2505.02881},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.02881}, 
}

参考文献

@misc{dubey2024llama3herdmodels,
      title={The Llama 3 Herd of Models}, 
      author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
      year={2024},
      eprint={2407.21783},
      archivePrefix={arXiv},
      primaryClass={cs.AI},
      url={https://arxiv.org/abs/2407.21783}, 
}