Swallow-MX-8x7b-NVE-v0.1オープンソースモデル - 日本語能力を強化する実用的な言語ツール

ホーム

Swallow MX 8x7b NVE V0.1

tokyotech-llmによって開発

Swallow-MX-8x7b-NVE-v0.1はMixtral-8x7B-Instruct-v0.1を基に継続事前学習を行った混合専門家モデルで、主に日本語能力を強化しています。

大規模言語モデル

Transformers

複数言語対応オープンソースライセンス:Apache-2.0 #日本語強化 #混合専門家アーキテクチャ #多言語生成

ダウンロード数 1,293

リリース時間 : 2/22/2024

モデル概要

このモデルはMixtral-8x7B-Instruct-v0.1をベースに日本語データを追加して継続事前学習を行い、日本語と英語をサポートし、様々なテキスト生成タスクに適しています。

モデル特徴

強化された日本語能力

継続事前学習により日本語データを追加し、日本語テキスト生成能力を大幅に向上させました。

混合専門家アーキテクチャ

8x7Bの混合専門家モデルアーキテクチャを採用し、複雑なタスクを効率的に処理できます。

多言語サポート

日本語と英語を同時にサポートし、クロスリンガルなアプリケーションシナリオに適しています。

モデル能力

日本語テキスト生成

英語テキスト生成

質問応答システム

テキスト要約

使用事例

教育

日本語学習支援

学生向けに日本語学習教材や練習問題を生成します。

日本語学習効率の向上

コンテンツ作成

多言語コンテンツ生成

ウェブサイトやアプリ向けに日本語と英語のコンテンツを生成します。

コンテンツ作成時間の節約

🚀 Swallow-MX-8x7b-NVE-v0.1

Swallow-MX-8x7b-NVE-v0.1モデルは、Mixtral-8x7B-Instruct-v0.1 から継続的に事前学習を行い、主に日本語データを追加して開発されました。

🚀 クイックスタート

このセクションでは、Swallow-MX-8x7b-NVE-v0.1モデルの基本的な使い方を説明します。

まず、requirements.txt の追加依存関係をインストールします。

pip install -r requirements.txt

ベースモデルの使用

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
    prompt,
    add_special_tokens=False,
    return_tensors="pt"
)
tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

✨ 主な機能

Swallow-MX-8x7b-NVE-v0.1モデルは、Mixtral-8x7B-Instruct-v0.1からの継続的な事前学習により、日本語データを追加して開発されています。これにより、日本語の処理能力が向上しています。

📦 インストール

まず、requirements.txt の追加依存関係をインストールします。

pip install -r requirements.txt

💻 使用例

基本的な使用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

model_name = "tokyotech-llm/Swallow-MX-8x7b-NVE-v0.1"
tokenizer = AutoTokenizer.from_pretrained(model_name)

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16, device_map="auto")
prompt = "東京工業大学の主なキャンパスは、"
input_ids = tokenizer.encode(
    prompt,
    add_special_tokens=False,
    return_tensors="pt"
)
tokens = model.generate(
    input_ids.to(device=model.device),
    max_new_tokens=128,
    temperature=0.99,
    top_p=0.95,
    do_sample=True,
)

out = tokenizer.decode(tokens[0], skip_special_tokens=True)
print(out)

📚 ドキュメント

モデルの詳細

属性	详情
モデルタイプ	モデルアーキテクチャの詳細については、Mixtral技術レポートを参照してください。
言語	日本語、英語
トークナイザー	このモデルは、Mixtral-8x7B-Instruct-v0.1と同じトークナイザーを使用しています。
連絡先	swallow[at]nlp.c.titech.ac.jp

ベースモデルの性能

日本語版

モデル	サイズ	JCommonsenseQA	JEMHopQA	NIILC	JSQuAD	XL-Sum	MGSM	WMT20-en-ja	WMT20-ja-en
		4-shot	4-shot	4-shot	4-shot	1-shot	4-shot	4-shot	4-shot
Llama 2	7B	0.3852	0.4240	0.3410	0.7917	0.1905	0.0760	0.1783	0.1738
Swallow	7B	0.4808	0.5078	0.5968	0.8573	0.1830	0.1240	0.2510	0.1511
Swallow-Plus	7B	0.5478	0.5493	0.6030	0.8544	0.1806	0.1360	0.2568	0.1441
Swallow-NVE	7B	0.5433	0.5425	0.5729	0.8684	0.2117	0.1200	0.2405	0.1512
Mistral-7B-v0.1	7B	0.7301	0.4245	0.2722	0.8563	0.2006	0.1760	0.1405	0.1733
Swallow-MS-7b-v0.1	7B	0.8570	0.4915	0.5519	0.8802	0.1988	0.2240	0.2494	0.1667
Llama 2	13B	0.6997	0.4415	0.4170	0.8533	0.2139	0.1320	0.2146	0.1982
Swallow	13B	0.7837	0.5063	0.6398	0.9005	0.2168	0.2040	0.2720	0.1771
Swallow-NVE	13B	0.7712	0.5438	0.6351	0.9030	0.2294	0.2120	0.2735	0.1817
Llama 2	70B	0.8686	0.4656	0.5256	0.9080	0.2361	0.3560	0.2643	0.2398
Swallow	70B	0.9348	0.6290	0.6960	0.9176	0.2266	0.4840	0.3043	0.2298
Swallow-NVE	70B	0.9410	0.5759	0.7024	0.9254	0.2758	0.4720	0.3042	0.2322
Mixtral-8x7B-v0.1	8x7B	0.8347	0.5335	0.3549	0.8847	0.2192	0.3120	0.1970	0.1987
Swallow-MX-8x7b-NVE-v0.1	8x7B	0.9258	0.5843	0.5687	0.9148	0.2589	0.4360	0.2705	0.2074

英語版

モデル	サイズ	OpenBookQA	TriviaQA	HellaSwag	SQuAD2.0	XWINO	GSM8K
		8-shot	8-shot	8-shot	8-shot	8-shot	8-shot
Llama 2	7B	0.3580	0.6265	0.5860	0.3207	0.9049	0.1410
Swallow	7B	0.3180	0.4836	0.5308	0.3125	0.8817	0.1130
Swallow-Plus	7B	0.3280	0.4558	0.5259	0.3134	0.8929	0.1061
Swallow-NVE	7B	0.3180	0.5079	0.5329	0.2919	0.8817	0.0986
Mistral-7B-v0.1	7B	0.3660	0.7050	0.6264	0.3799	0.9157	0.3533
Swallow-MS-7b-v0.1	7B	0.3440	0.5976	0.5810	0.3364	0.9037	0.2623
Llama 2	13B	0.3760	0.7255	0.6148	0.3681	0.9140	0.2403
Swallow	13B	0.3500	0.5852	0.5660	0.3406	0.9075	0.2039
Swallow-NVE	13B	0.3460	0.6025	0.5700	0.3478	0.9006	0.1751
Llama 2	70B	0.4280	0.8239	0.6742	0.3770	0.9290	0.5284
Swallow	70B	0.4220	0.7756	0.6458	0.3745	0.9204	0.4867
Swallow-NVE	70B	0.4240	0.7817	0.6439	0.3451	0.9256	0.4943
Mixtral-8x7B-v0.1	8x7B	0.3960	0.7989	0.6678	0.3842	0.9204	0.5747
Swallow-MX-8x7b-NVE-v0.1	8x7B	0.3740	0.7847	0.6520	0.3801	0.9170	0.5694

学習データセット

継続的な事前学習

継続的な事前学習には、以下のデータセットが使用されました。

リスクと制限

ここで公開されているモデルは、まだ研究開発の初期段階にあり、出力が人間の意図や安全性の考慮に沿うように調整されていません。

謝辞

Mistral AIが、Mixtral-8x7B-Instruct-v0.1をオープンライセンスで公開し、他者がその上に構築できるようにしてくれたことに感謝します。

当プロジェクトは、国立研究開発法人産業技術総合研究所の ABCI Large-scale Language Model Building Support Program によって支援されています。

引用方法

もし当研究が役に立った場合は、ご自由に引用してください。

@inproceedings{Fujii:COLM2024,
   title={Continual Pre-Training for Cross-Lingual LLM Adaptation:
Enhancing Japanese Language Capabilities},
   author={Kazuki Fujii and Taishi Nakamura and Mengsay Loem and Hiroki
Iida and Masanari Ohi and Kakeru Hattori and Hirai Shota and Sakae
Mizuki and Rio Yokota and Naoaki Okazaki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}

@inproceedings{Okazaki:COLM2024,
   title={Building a Large Japanese Web Corpus for Large Language Models},
   author={Naoaki Okazaki and Kakeru Hattori and Hirai Shota and Hiroki
Iida and Masanari Ohi and Kazuki Fujii and Taishi Nakamura and Mengsay
Loem and Rio Yokota and Sakae Mizuki},
   booktitle="Proceedings of the First Conference on Language Modeling",
   series={COLM},
   pages="(to appear)",
   year="2024",
   month=oct,
   address={University of Pennsylvania, USA},
}