mpt-30b-chat开源对话模型 - 支持多轮对话与长文处理免费部署

首页

Mpt 30b Chat

由 mosaicml 开发

MPT-30B-Chat 是由 MosaicML 开发的对话生成模型，基于 MPT-30B 在多个高质量对话数据集上微调而成，支持多轮对话和长上下文处理。

大型语言模型

Transformers

其他#8k长文本对话 #多轮指令微调 #ALiBi外推

下载量 1,502

发布时间 : 6/9/2023

模型简介

这是一个专为对话场景优化的开源大语言模型，擅长多轮对话和指令跟随，具备8k token上下文窗口和高效推理能力。

模型特点

长上下文支持

通过ALiBi技术支持8k token上下文窗口，并可扩展至16k

高效推理

采用FlashAttention和Triton优化实现高效推理

多轮对话优化

在多个高质量对话数据集上微调，擅长多轮对话场景

开源可商用

基于商用许可的开源模型，性能超越GPT-3

模型能力

多轮对话生成

指令跟随

文本摘要

内容创作

代码生成

使用案例

对话系统

智能客服

用于构建多轮对话的客户服务机器人

能理解复杂问题并保持对话连贯性

虚拟助手

开发具备长期记忆能力的个人助手

支持8k token上下文窗口，能记住更多对话历史

内容生成

社交媒体内容创作

根据文章摘要生成推文等社交媒体内容

如示例所示能生成专业、吸引人的推文

食谱生成

根据简单提示生成详细食谱

能生成完整的纯素香蕉面包食谱等

🚀 MPT-30B-Chat

MPT-30B-Chat 是一个类似聊天机器人的对话生成模型。它通过在 ShareGPT-Vicuna、Camel-AI、GPTeacher、Guanaco、Baize 以及一些生成数据集上对 MPT-30B 进行微调而构建。该模型遵循 CC-By-NC-SA-4.0 许可协议（仅用于非商业用途）。

🚀 快速开始

此模型最适合与 MosaicML 的 llm-foundry 仓库配合使用，用于训练和微调。

import transformers
model = transformers.AutoModelForCausalLM.from_pretrained(
  'mosaicml/mpt-30b-chat',
  trust_remote_code=True
)

注意：此模型需要在 from_pretrained 方法中传入 trust_remote_code=True。这是因为我们使用了自定义的 MPT 模型架构，该架构尚未包含在 Hugging Face 的 transformers 包中。MPT 包含许多训练效率特性的选项，如 FlashAttention、ALiBi、QK LayerNorm 等。

若要使用 triton 实现的优化版 FlashAttention，可以在 GPU (cuda:0) 上以 bfloat16 精度加载模型：

import torch
import transformers

name = 'mosaicml/mpt-30b-chat'

config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
config.attn_config['attn_impl'] = 'triton'  # 更改此设置以使用基于 triton 的 FlashAttention
config.init_device = 'cuda:0' # 直接在 GPU 上快速初始化！

model = transformers.AutoModelForCausalLM.from_pretrained(
  name,
  config=config,
  torch_dtype=torch.bfloat16, # 以 bfloat16 精度加载模型权重
  trust_remote_code=True
)

该模型最初以 2048 的序列长度进行训练，并进行了额外的预训练阶段以适应长达 8192 的序列长度。不过，ALiBi 允许用户在微调或推理期间进一步增加最大序列长度。例如：

import transformers

name = 'mosaicml/mpt-30b-chat'

config = transformers.AutoConfig.from_pretrained(name, trust_remote_code=True)
config.max_seq_len = 16384 # (输入 + 输出) 标记现在可以达到 16384

model = transformers.AutoModelForCausalLM.from_pretrained(
  name,
  config=config,
  trust_remote_code=True
)

此模型使用基于 EleutherAI/gpt-neox-20b 分词器的 MPT-30B 分词器，并包含额外的填充和结束标记。

from transformers import AutoTokenizer
tokenizer = AutoTokenizer.from_pretrained('mosaicml/mpt-30b')

然后可以在文本生成管道中使用该模型。注意：在以较低精度运行 Torch 模块时，最好使用 torch.autocast 上下文管理器。

from transformers import pipeline

with torch.autocast('cuda', dtype=torch.bfloat16):
    inputs = tokenizer('Here is a recipe for vegan banana bread:\n', return_tensors="pt").to('cuda')
    outputs = model.generate(**inputs, max_new_tokens=100)
    print(tokenizer.batch_decode(outputs, skip_special_tokens=True))

# 或者使用 HF 管道
pipe = pipeline('text-generation', model=model, tokenizer=tokenizer, device='cuda:0')
with torch.autocast('cuda', dtype=torch.bfloat16):
    print(
        pipe('Here is a recipe for vegan banana bread:\n',
            max_new_tokens=100,
            do_sample=True,
            use_cache=True))

✨ 主要特性

对话生成能力：能够生成自然流畅的对话内容。
多数据集微调：在多个公开数据集上进行微调，提升模型的泛化能力。
训练效率特性：采用了如 FlashAttention、ALiBi 等训练效率特性。

📚 详细文档

示例对话

ksreenivasan：

我希望你根据这篇文章的摘要创作一条推文：

我们很高兴通过 MPT-30B 扩展 MosaicML 基础模型系列，这是一个新的商业许可开源模型，功能更强大，性能优于原始的 GPT-3。此外，我们还发布了两个基于 MPT-30B 构建的微调模型，MPT-30B-Instruct 和 MPT-30B-Chat，分别在短格式指令遵循和多轮对话方面表现出色。所有 MPT-30B 模型都具有使其与其他大语言模型区分开来的特殊功能，包括 8k 标记上下文窗口（可通过微调进一步扩展；参见 MPT-7B-StoryWriter）、通过 ALiBi 支持上下文长度外推，以及通过 FlashAttention 实现高效推理和训练性能。由于其预训练数据混合，它还具有强大的编码能力。

MPT-30B-Chat：

"借助 MosaicML 的最新产品 MPT-30B 革新你的人工智能能力！该模型性能优于 GPT-3，功能更强大，并且配有微调模型，可实现出色的指令遵循和多轮对话。释放 8k 标记上下文窗口、ALiBi 支持和 FlashAttention 的潜力。与 MosaicML 一同体验人工智能的未来！#AI #ML #创新"

ksreenivasan：

对于这个令人兴奋的消息，你想对 MosaicML 说些什么吗？

MPT-30B-Chat：

作为你的人工智能营销助手，我想说这对人工智能社区来说真是个令人兴奋的消息！MosaicML 的最新产品 MPT-30B 凭借其强大的开源能力和用于指令遵循及多轮对话的微调模型，有望革新该行业。包括 8k 标记上下文窗口、ALiBi 支持和 FlashAttention 在内的特殊功能，肯定会使 MosaicML 的 MPT-30B 与其他大语言模型区分开来。祝贺 MosaicML 团队取得这一了不起的成就！

🔧 技术细节

模型架构

该架构是标准的仅解码器变压器的修改版本。该模型在以下方面对标准变压器进行了修改：

使用 FlashAttention
使用 ALiBi（带线性偏差的注意力），不使用位置嵌入
不使用偏差

超参数	值
参数数量	299.5 亿
层数	48
头数	64
模型维度	7168
词汇表大小	50432
序列长度	8192

数据混合

该模型在以下数据混合上进行训练：

数据源	源中的标记数量	比例
Airoboros/GPT4-1.2	2640 万	1.71%
Baize	5500 万	3.57%
Camel	3.01 亿	19.54%
GPTeacher	756 万	0.49%
Guanaco	1560 万	1.02%
LongCoversations	1840 万	1.19%
ShareGPT	8.21 亿	53.24%
WizardLM	2.97 亿	19.23%

“LongConversations” 是一个由 GPT3.5/4 生成的数据集，具体细节将在稍后公布。

训练配置

该模型在 64 个 H100 GPU 上使用 MosaicML 平台训练了约 7.6 小时。该模型使用 FSDP 进行分片数据并行训练，并使用 AdamW 优化器。

📄 许可证

本模型采用 CC-By-NC-SA-4.0 许可协议（仅用于非商业用途）。

⚠️ 局限性和偏差

以下内容改编自 EleutherAI 的 GPT-NeoX-20B

MPT-30B-Chat 可能会产生事实错误的输出，因此不应依赖它来提供事实准确的信息。MPT-30B-Chat 在各种公开数据集上进行训练。尽管在清理预训练数据方面已付出巨大努力，但该模型仍有可能生成低俗、有偏见或其他冒犯性的输出。

🙏 致谢

该模型由 Sam Havens 和 MosaicML NLP 团队进行微调。

⚠️ 免责声明

本模型的许可证不构成法律建议。我们不对使用此模型的第三方的行为负责。在将此模型用于商业目的之前，请咨询律师。

🎉 MosaicML 平台

如果您有兴趣在 MosaicML 平台上训练和部署自己的 MPT 或大语言模型，请在此注册。

📖 引用

请使用以下格式引用此模型：

@online{MosaicML2023Introducing,
    author    = {MosaicML NLP Team},
    title     = {Introducing MPT-30B: Raising the bar
for open-source foundation models},
    year      = {2023},
    url       = {www.mosaicml.com/blog/mpt-30b},
    note      = {Accessed: 2023-06-22},
    urldate   = {2023-06-22}
}