モデル概要
モデル特徴
モデル能力
使用事例
🚀 Llama 3.3 Swallow - Llamaをベースに構築
Llama 3.3 Swallowは、700億パラメータの大規模言語モデルです。このモデルは、Meta Llama 3.3モデルをベースに、継続的な事前学習を行うことで構築されています。これにより、英語能力を維持したまま、元のLlama 3.3の日本語能力を強化しています。事前学習には、大型の日本語ウェブコーパス(Swallowコーパスバージョン2)、日本語と英語のウィキペディア記事、数学やコーディング関連の内容など、約3150億個のトークンを使用しています(詳細は、基礎モデルの学習データセットのセクションを参照)。指令調整モデル(Instruct)は、日本語用に構築された合成データを用いて、教師あり微調整(SFT)を行うことで構築されています。他のモデルバリエーションを見るには、Swallowモデルインデックスのセクションを参照してください。
🚀 クイックスタート
Llama 3.3 Swallowは、英語と日本語のシナリオで強力な言語処理能力を提供します。モデルのHugging Faceのリンクにアクセスすることで、異なるバージョンのモデルを使用できます。
✨ 主な機能
- バイリンガル能力の強化:英語能力を維持した上で、日本語の処理能力を大幅に向上させています。
- 継続的な事前学習:大規模かつ多様なコーパスを用いて継続的な事前学習を行い、モデルの性能を向上させています。
- 複数のモデルバリエーション:異なるバージョンや仕様のモデルを提供し、さまざまなニーズに対応しています。
📚 ドキュメント
リリース履歴
- 2025年3月10日:Llama-3.3-Swallow-70B-Instruct-v0.4とLlama-3.3-Swallow-70B-v0.4をリリース。
- 2024年12月30日:Llama-3.1-Swallow-70B-Instruct-v0.3をリリース。
- 2024年12月23日:Llama-3.1-Swallow-8B-Instruct-v0.3をリリース。
- 2024年11月11日:Llama-3.1-Swallow-8B-v0.2とLlama-3.1-Swallow-8B-Instruct-v0.2をリリース。
- 2024年10月8日:Llama-3.1-Swallow-8B-v0.1、Llama-3.1-Swallow-8B-Instruct-v0.1、Llama-3.1-Swallow-70B-v0.1、Llama-3.1-Swallow-70B-Instruct-v0.1をリリース。
Swallowモデルインデックス
モデル | Llama-3.1-Swallow v0.1 | Llama-3.1-Swallow-Instruct v0.1 | Llama-3.1-Swallow v0.2 | Llama-3.1-Swallow-Instruct v0.2 | Llama-3.1-Swallow-Instruct v0.3 | Llama-3.3-Swallow v0.4 | Llama-3.3-Swallow-Instruct v0.4 |
---|---|---|---|---|---|---|---|
8B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | ||
70B | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace | 🐱 HuggingFace |
このウェブサイトhttps://swallow-llm.github.io/では、Swallowチームが開発した大規模言語モデルを提供しています。
モデル詳細
属性 | 詳細 |
---|---|
モデルタイプ | モデルアーキテクチャの詳細については、Llama 3.1 MODEL_CARDを参照してください。 |
対応言語 | 日本語、英語 |
ライブラリ | Megatron-LM |
トークナイザー | トークナイザーの詳細については、Llama 3.1ブログを参照してください。 |
連絡先 | swallow[at]nlp.c.titech.ac.jp |
モデル性能
日本語タスク
モデル | JCom. | JEMHopQA | NIILC | JSQuAD | XL-Sum | MGSM | WMT20-en-ja | WMT20-ja-en | JMMLU | JHumanEval | 日本語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 1-shot | 4-shot | 4-shot | 4-shot | 5-shot | 0-shot | ||
EM正解率 | 文字F1値 | 文字F1値 | 文字F1値 | ROUGE-2 | EM正解率 | BLEU | BLEU | EM正解率 | pass@1 | ||
Qwen2-72B | 0.960 | 0.620 | 0.561 | 0.926 | 0.238 | 0.768 | 0.275 | 0.241 | 0.782 | 0.561 | 0.593 |
Qwen2.5-72B | 0.972 | 0.611 | 0.619 | 0.930 | 0.279 | 0.828 | 0.287 | 0.252 | 0.804 | 0.648 | 0.623 |
Sarashina2-70B | 0.929 | 0.717 | 0.668 | 0.929 | 0.190 | 0.488 | 0.313 | 0.243 | 0.592 | 0.235 | 0.530 |
Llama 3 70B | 0.946 | 0.606 | 0.589 | 0.922 | 0.228 | 0.664 | 0.286 | 0.252 | 0.705 | 0.491 | 0.569 |
Llama 3.1 70B | 0.946 | 0.616 | 0.603 | 0.925 | 0.228 | 0.672 | 0.287 | 0.257 | 0.669 | 0.462 | 0.566 |
Llama 3 Youko 70B | 0.946 | 0.602 | 0.610 | 0.923 | 0.242 | 0.684 | 0.292 | 0.250 | 0.704 | 0.463 | 0.571 |
Llama 3 Swallow 70B | 0.968 | 0.675 | 0.684 | 0.923 | 0.239 | 0.708 | 0.307 | 0.255 | 0.706 | 0.477 | 0.594 |
Llama 3.1 Swallow 70B | 0.955 | 0.645 | 0.678 | 0.923 | 0.272 | 0.684 | 0.320 | 0.259 | 0.709 | 0.487 | 0.593 |
Llama 3.3 Swallow 70B v0.4 | 0.967 | 0.671 | 0.732 | 0.924 | 0.283 | 0.776 | 0.327 | 0.260 | 0.742 | 0.604 | 0.629 |
英語タスク
モデル | OpenBookQA | TriviaQA | HellaSWAG | SQuAD2.0 | XWINO | MMLU | GSM8K | MATH | BBH | HumanEval | 英語平均 |
---|---|---|---|---|---|---|---|---|---|---|---|
4-shot | 4-shot | 4-shot | 4-shot | 4-shot | 5-shot | 4-shot | 4-shot | 3-shot | 0-shot | ||
正解率 | EM正解率 | 正解率 | EM正解率 | 正解率 | 正解率 | EM正解率 | CoT EM正解率 | CoT EM正解率 | pass@1 | ||
Qwen2-72B | 0.418 | 0.790 | 0.677 | 0.673 | 0.915 | 0.842 | 0.893 | 0.560 | 0.643 | 0.608 | 0.702 |
Qwen2.5-72B | 0.416 | 0.760 | 0.685 | 0.693 | 0.901 | 0.861 | 0.870 | 0.626 | 0.727 | 0.554 | 0.709 |
Sarashina2-70B | 0.388 | 0.537 | 0.628 | 0.675 | 0.917 | 0.630 | 0.011 | 0.206 | 0.639 | 0.281 | 0.491 |
Llama 3 70B | 0.440 | 0.826 | 0.690 | 0.618 | 0.920 | 0.787 | 0.801 | 0.446 | 0.829 | 0.527 | 0.689 |
Llama 3.1 70B | 0.450 | 0.829 | 0.690 | 0.605 | 0.920 | 0.786 | 0.798 | 0.434 | 0.655 | 0.546 | 0.671 |
Llama 3 Youko 70B | 0.436 | 0.829 | 0.690 | 0.610 | 0.922 | 0.785 | 0.797 | 0.408 | 0.826 | 0.412 | 0.671 |
Llama 3 Swallow 70B | 0.430 | 0.823 | 0.682 | 0.628 | 0.923 | 0.774 | 0.817 | 0.414 | 0.734 | 0.499 | 0.672 |
Llama 3.1 Swallow 70B v0.1 | 0.428 | 0.826 | 0.690 | 0.612 | 0.927 | 0.772 | 0.809 | 0.380 | 0.806 | 0.540 | 0.679 |
Llama 3.1 Swallow 70B v0.4 | 0.424 | 0.817 | 0.683 | 0.641 | 0.920 | 0.802 | 0.863 | 0.496 | 0.754 | 0.709 | 0.711 |
評価ベンチマーク
評価スクリプトは、swallow-llm/swallow-evaluationにあり、タグはv202411
です。
日本語評価ベンチマーク
llm-jp-eval(v1.3.0)、JP言語モデル評価セット(コミット番号9b42d41)、コード生成LM評価セット(コミット番号0261c52)を使用しています。詳細は以下の通りです。
- 多肢選択問題回答(JCommonsenseQA [Kuriharaら, 2022])
- オープンエンド問題回答(JEMHopQA [Ishiiら, 2024])
- オープンエンド問題回答(NIILC [Èñ¢Ê†π, 2003])
- 機械読解(JSQuAD [Kuriharaら, 2022])
- 自動要約(XL-Sum [Hasanら, 2021])
- 機械翻訳(WMT2020 ja-en [Barraultら, 2020])
- 機械翻訳(WMT2020 en-ja [Barraultら, 2020])
- 数学推論(MGSM [Shiら, 2023])
- 学術試験(JMMLU [Â∞π„Çâ, 2024])
- コード生成(JHumanEval [‰ΩêËó§„Çâ, 2024])
英語評価ベンチマーク
言語モデル評価セット(v.0.4.2)とコード生成LM評価セット(コミット番号0261c52)を使用しています。詳細は以下の通りです。
- 多肢選択問題回答(OpenBookQA [Mihaylovら, 2018])
- オープンエンド問題回答(TriviaQA [Joshiら, 2017])
- 機械読解(SQuAD2 [Rajpurkarら, 2018])
- 常識推論(XWINO [TikhonovとRyabinin, 2021])
- 自然言語推論(HellaSwag [Zellersら, 2019])
- 数学推論(GSM8K [Cobbeら, 2021])
- 数学推論(MATH [Hendrycksら, 2022][Lightmanら, 2024])
- 推論(BBH(BIG-Bench-Hard)[Suzgunら, 2023])
- 学術試験(MMLU [Hendrycksら, 2021])
- コード生成(HumanEval [Chenら, 2021])
学習データセット
継続的な事前学習
以下のデータセットを継続的な事前学習に使用しています。
- Cosmopedia
- Dclm-baseline-1.0
- 英語ウィキペディア
- FineMath-4+
- 日本語ウィキペディア
- Laboro ParaCorpus
- Swallowコーパスバージョン2(Swallow教育分類器(ウィキペディアベース)でフィルタリング)
- Swallowコーパスバージョン2(Swallow教育分類器でフィルタリング)
- Swallowコーパスバージョン2(合成質問応答形式)
- Swallowコードバージョン0.3(The Stack v2 train smol idsからフィルタリングし、Llama-3.3-70B-Instructを使用して再構築)
Swallowコーパスバージョン2
Common Crawlから高品質の日本語テキストを抽出することで、Swallowコーパスを構築しています。バージョン2では、Common Crawlの収集範囲を拡大し、パイプラインの順序を変更することで、より柔軟な品質フィルタリングを実現しています。Llama 3.1 Swallow v0.2では、品質フィルタリングとデータサンプリング戦略をさらに最適化し、事前学習により高品質の日本語テキストを選択しています。Llama 3.3 Swallow 70B v0.4では、Gemma 2 27B ITを使用して、コーパス内の教育用ウェブページドキュメントを言い換え、合成質問応答形式のテキストを生成しています。方法と分析の詳細は、近日公開される論文で提供されます。
Swallowコードバージョン0.3
The Stack v2 train smol idsからフィルタリングし、Llama-3.3-70B-Instructを使用して再構築することで、Swallowコードバージョン0.3を構築しています。フィルタリングの過程で、構文エラーがあるコードテキストやpylintスコアが7未満のものを削除しています。フィルタリング後のバージョンであるSwallowコードバージョン0.1を公開しています。再構築の過程では、Llama-3.3-70B-Instructに対して、Google Pythonスタイルガイドとコーディングのベストプラクティスに従うように指示を与えています。
リスクと制限事項
ここで公開されているモデルは、まだ開発の初期段階にあり、出力が人間の意図やセキュリティ上の考慮に沿うように調整されていません。
謝辞
Meta ResearchがLlama 3.3を寛大なオープンライセンスで公開してくれたことに感謝します。また、アマゾンウェブサービス(AWS)がSageMaker HyperPodへのアクセスを提供してくれたことで、Llama 3.3 Swallowプロジェクトの学習が可能になりました。以下の様々な支援を得ています。
- AISTプロジェクト:「物理領域の生成型AI基礎モデルの研究と開発」
- NEDOプロジェクト:「熟練者の視点に基づく設計リスク評価作業における判断支援AI応用技術開発」(JPNP18002)、「次世代AIとロボットの核心集積技術開発」プロジェクトの一部
- MEXTプロジェクト:「生成型AIモデルの透明性と信頼性を確保する研究開発拠点の構築」
- AIST計画:大型生成型AI開発支援計画
📄 ライセンス
META LLAMA 3.3コミュニティライセンスとGemma利用規約
作者
以下はチームメンバーです。
- 東京工業大学科学研究所岡崎研究室のメンバー:
- 東京工業大学科学研究所横田研究室のメンバー:
- 国立研究開発法人産業技術総合研究所人工知能研究センターのメンバー:
引用方法
もし当チームの研究が役立ったと思われる場合は、以下の論文を引用していただけると幸いです。
@inproceedings{Fujii:COLM2024,
title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@inproceedings{Okazaki:COLM2024,
title={Building a Large Japanese Web Corpus for Large Language Models},
author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
booktitle="Proceedings of the First Conference on Language Modeling",
series={COLM},
pages="(to appear)",
year="2024",
month=oct,
address={University of Pennsylvania, USA},
}
@misc{fujii2025rewritingpretrainingdataboosts,
title={Rewriting Pre-Training Data Boosts LLM Performance in Math and Code},
author={Kazuki Fujii and Yukito Tajima and Sakae Mizuki and Hinari Shimada and Taihei Shiotani and Koshiro Saito and Masanari Ohi and Masaki Kawamura and Taishi Nakamura and Takumi Okamoto and Shigeki Ishida and Kakeru Hattori and Youmi Ma and Hiroya Takamura and Rio Yokota and Naoaki Okazaki},
year={2025},
eprint={2505.02881},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02881},
}
参考文献
@misc{dubey2024llama3herdmodels,
title={The Llama 3 Herd of Models},
author={Abhimanyu Dubey and Abhinav Jauhri and Abhinav Pandey and Abhishek Kadian and Ahmad Al-Dahle and Aiesha Letman and Akhil Mathur and Alan Schelten and Amy Yang and Angela Fan et al.},
year={2024},
eprint={2407.21783},
archivePrefix={arXiv},
primaryClass={cs.AI},
url={https://arxiv.org/abs/2407.21783},
}



