MPT - 7Bオープンソース大規模言語モデル - 無料商用で英語テキストとコード処理を実現

Mpt 7b

mosaicmlによって開発

MPT-7BはMosaicMLによってトレーニングされた商用利用可能なオープンソースの大規模言語モデルで、1兆トークンの英語テキストとコードに基づいて事前トレーニングされ、改良されたTransformerアーキテクチャを使用してトレーニングと推論の効率を最適化しています。

大規模言語モデル

Transformers

その他オープンソースライセンス:Apache-2.0 #超長コンテキスト処理 #商用利用可能なオープンソース #効率的なトレーニングと推論

ダウンロード数 27.19k

リリース時間 : 5/5/2023

モデル概要

MPT-7Bはデコーダーアーキテクチャに基づくTransformerモデルで、長文処理と効率的な推論をサポートし、テキスト生成や対話システムなどのタスクに適しています。

モデル特徴

商用利用許可

商用利用が許可されており、LLaMAなどの制限的なライセンスモデルとは異なります。

大規模トレーニングデータ

1兆トークンでトレーニングされており、同様のオープンソースモデル（Pythiaの3000億トークンなど）を大幅に上回ります。

超長コンテキスト処理

ALiBi技術により65k以上のトークンのコンテキスト処理能力を実現。

効率的な推論

FlashAttentionとFasterTransformerにより高速な推論を実現。

モデル能力

テキスト生成

長文処理

指示追従

対話生成

使用事例

コンテンツ作成

超長編ストーリー作成

超長編のフィクションストーリーを生成または続きを書く

MPT-7B-StoryWriterバージョンは84kトークンのコンテキストを処理可能

対話システム

チャットボット

MPT-7B-Chatモデルに基づいて対話システムを構築

指示実行

タスクガイダンス

短い指示に従って特定のタスクを完了

🚀 MPT-7B

MPT-7Bは、1兆トークンの英語テキストとコードを使ってゼロから事前学習されたデコーダー型のトランスフォーマーモデルです。このモデルはMosaicMLによって訓練されました。

MPT-7BはMosaicPretrainedTransformer (MPT) モデルファミリーの一部で、効率的な訓練と推論のために最適化された改良型のトランスフォーマーアーキテクチャを使用しています。

これらのアーキテクチャの変更には、パフォーマンス最適化されたレイヤー実装や、位置埋め込みをAttention with Linear Biases (ALiBi) で置き換えることによるコンテキスト長の制限の排除が含まれています。これらの改良により、MPTモデルは高いスループット効率と安定した収束で訓練でき、標準的なHuggingFaceパイプラインとNVIDIAのFasterTransformerの両方で効率的にサービスを提供できます。

このモデルはMosaicMLのLLMコードベースを使用しており、llm-foundryリポジトリで見つけることができます。このモデルは、MosaicMLのNLPチームによって、LLMの事前学習、微調整、推論用のMosaicMLプラットフォーム上で訓練されました。

🚀 クイックスタート

このモデルは、訓練と微調整にMosaicMLのllm-foundryリポジトリを使用するのが最適です。

import transformers
model = transformers.AutoModelForCausalLM.from_pretrained(
  'mosaicml/mpt-7b',
  trust_remote_code=True
)

注意: このモデルは、from_pretrainedメソッドにtrust_remote_code=Trueを渡す必要があります。これは、まだHugging Faceのtransformersパッケージの一部ではないカスタムのMPTモデルアーキテクチャを使用しているためです。MPTには、FlashAttention、ALiBi、QK LayerNorm などの多くの訓練効率機能のオプションが含まれています。

FlashAttentionの最適化されたtriton実装を使用するには、attn_impl='triton' と bfloat16 精度でモデルをGPU (cuda:0) にロードすることができます。

import torch
import transformers

name = 'mosaicml/mpt-7b'

config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
config.attn_config['attn_impl'] = 'triton'
config.init_device = 'cuda:0' # For fast initialization directly on GPU!

model = transformers.AutoModelForCausalLM.from_pretrained(
  name,
  config=config,
  torch_dtype=torch.bfloat16, # Load model weights in bfloat16
  trust_remote_code=True
)

モデルはシーケンス長2048で訓練されましたが、ALiBiにより、ユーザーは微調整や推論時に最大シーケンス長を増やすことができます。例えば:

import transformers

name = 'mosaicml/mpt-7b'

config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
config.max_seq_len = 4096 # (input + output) tokens can now be up to 4096

model = transformers.AutoModelForCausalLM.from_pretrained(
  name,
  config=config,
  trust_remote_code=True
)

このモデルは、EleutherAI/gpt-neox-20b トークナイザーで訓練されました。

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('EleutherAI/gpt-neox-20b')

その後、このモデルは、例えば、テキスト生成パイプライン内で使用することができます。
注意: 低精度でTorchモジュールを実行する場合、torch.autocastコンテキストマネージャーを使用することがベストプラクティスです。

from transformers import pipeline

pipe = pipeline('text-generation', model=model, tokenizer=tokenizer, device='cuda:0')

with torch.autocast('cuda', dtype=torch.bfloat16):
    print(
        pipe('Here is a recipe for vegan banana bread:\n',
            max_new_tokens=100,
            do_sample=True,
            use_cache=True))

✨ 主な機能

このモデルの特徴

MPT-7Bは以下の特徴を持っています。

商用利用の可能性があるライセンス (LLaMA とは異なり)。
大量のデータで訓練 (LLaMA と同じ1兆トークン。Pythia は3000億、OpenLLaMA は3000億、StableLM は8000億)。
ALiBi により、非常に長い入力を処理できる (MPT-7B-StoryWriter-65k+ を最大65k入力で微調整し、他のオープンソースモデルの2k - 4kに対して最大84kを処理できます)。
高速な訓練と推論が可能 (FlashAttention と FasterTransformer を介して)。
llm-foundryリポジトリを介した非常に効率的なオープンソースの訓練コードを備えている。

MPT-7Bから微調整されたモデル

以下のモデルはMPT-7Bを微調整したものです。

MPT-7B-StoryWriter-65k+: 非常に長いコンテキスト長で架空の物語を読み書きするように設計されたモデル。 books3データセットのフィルタリングされたフィクションサブセットで、コンテキスト長65kトークンでMPT-7Bを微調整して構築されました。推論時には、ALiBi により、MPT-7B-StoryWriter-65k+は65kトークンを超える場合でも外挿できます。ブログ記事では、単一のA100-80GB GPUで最大80kトークンの生成を実証しています。
- ライセンス: Apache 2.0
MPT-7B-Instruct: 短い形式の命令に従うためのモデル。 Databricks Dolly-15k と Anthropic Helpful and Harmless (HH-RLHF) データセットから派生した、私たちが公開したデータセットでMPT-7Bを微調整して構築されました。
- ライセンス: Apache 2.0
MPT-7B-Chat: 対話生成用のチャットボットのようなモデル。 ShareGPT-Vicuna、HC3、 Alpaca、HH-RLHF、および Evol-Instruct データセットでMPT-7Bを微調整して構築されました。
- ライセンス: CC-By-NC-SA-4.0

📚 ドキュメント

ブログ記事: Introducing MPT-7B: A New Standard for Open-Source, Commercially Usable LLMs
コードベース (mosaicml/llm-foundryリポジトリ)
質問: MosaicML Community Slack を通じてお気軽にお問い合わせください！

🔧 技術詳細

モデルの説明

アーキテクチャは、標準的なデコーダー専用トランスフォーマーの改良版です。

モデルは、標準的なトランスフォーマーから以下のように変更されています。

FlashAttention を使用しています。
ALiBi (Attention with Linear Biases) を使用し、位置埋め込みを使用していません。
バイアスを使用していません。

ハイパーパラメータ	値
n_parameters	67億
n_layers	32
n_heads	32
d_model	4096
語彙サイズ	50432
シーケンス長	2048

訓練データ

ストリーミングデータセット

データは、MosaicMLのStreamingDataset ライブラリを使用してフォーマットされ、オブジェクトストレージにデータを保存し、訓練中にコンピュートクラスタに効率的にストリーミングします。 StreamingDatasetにより、訓練を開始する前にデータセット全体をダウンロードする必要がなくなり、データセットの任意のポイントから訓練を即座に再開することができます。

データミックス

モデルは、1兆トークン (バッチサイズ1760、シーケンス長2048) で訓練されました。以下のデータミックスで訓練されました。

データソース	ソース内のトークン数	割合	有効なトークン数	エポック数
mC4 3.1.0 - 英語	4179.9億	0.33	3300億	0.14
C4 - 英語 - SemDedup 80%	1004.2億	0.299	2990億	2.98
RedPajama - CommonCrawl	8784.5億	0.1	1000億	0.11
The Stack - 選択された言語	4637.8億	0.1	1000億	0.22
RedPajama - Wikipedia - 英語	48.7億	0.04	400億	8.21
The Stack - Markdown	1070.7億	0.035	350億	0.33
S2ORC	488.5億	0.033	330億	0.68
RedPajama - 書籍	260.2億	0.03	300億	1.15
RedPajama - arXiv	281.0億	0.019	190億	0.68
RedPajama - StackExchange	205.4億	0.014	140億	0.68

各バッチのサンプルは、上記の確率でデータセットの1つから選択されました。各データセット内でサンプルはシャッフルされ、各サンプルは、2048のシーケンス長を埋めるのに必要なだけのシーケンスから構築されました。

データは、EleutherAI/gpt-neox-20b トークナイザーを使用してトークン化されました。このBPEトークナイザーには、多くの望ましい特性があり、そのほとんどはコードのトークン化に関連しています。 (1) コードを含む多様なデータミックス (The Pile) で訓練されています。 (2) 接頭辞スペースの存在に応じて不一致にトークン化するGPT2トークナイザーとは異なり、一貫したスペース区切りを適用します。 (3) 繰り返されるスペース文字のトークンが含まれており、大量の繰り返されるスペース文字を含むテキストの圧縮率を向上させることができます。

モデルの語彙サイズ50432は、128の倍数に設定され (MEGATRON-LM のように)、モデルのフロップ利用率 (MFU) が最大4ポイント向上しました。

訓練設定

このモデルは、MosaicMLプラットフォームを使用して、440台のA100-40GBで約9.5日間訓練されました。モデルは、FSDP を使用したシャード化されたデータ並列で訓練され、LION オプティマイザーを使用しました。

制限とバイアス

以下の文章は、EleutherAIのGPT-NeoX-20B から改変されています。

MPT-7B (Base) は、微調整なしでのデプロイを目的としていません。さらなるガードレールとユーザーの同意なしで、人間との対話に使用してはなりません。

MPT-7Bは事実に誤りのある出力を生成する可能性があり、事実に正確な情報を生成することに依存してはなりません。 MPT-7Bは、様々な公開データセットで訓練されました。事前学習データのクリーニングには多大な努力が払われていますが、このモデルが猥褻、偏見、またはその他の不快な出力を生成する可能性があります。

📄 ライセンス

モデルの日付

2023年5月5日

モデルのライセンス

Apache-2.0

免責事項

このモデルのライセンスは法律上のアドバイスを構成するものではありません。このモデルを使用する第三者の行為について、私たちは責任を負いません。商用目的でこのモデルを使用する前に、弁護士に相談してください。

引用

このモデルを引用するには、以下の形式を使用してください。

@online{MosaicML2023Introducing,
    author    = {MosaicML NLP Team},
    title     = {Introducing MPT-7B: A New Standard for Open-Source,
    Commercially Usable LLMs},
    year      = {2023},
    url       = {www.mosaicml.com/blog/mpt-7b},
    note      = {Accessed: 2023-05-05},
    urldate   = {2023-05-05}
}