RedPajama-INCITE-7B-Chat开源对话模型 - 免费使用实现智能对话交流

首页

Redpajama INCITE 7B Chat

由 togethercomputer 开发

由Together联合多个AI研究机构开发的69亿参数对话专用语言模型，基于RedPajama-Data-1T数据集训练，通过OASST1和Dolly2数据微调增强对话能力

大型语言模型

Transformers

英语开源协议:Apache-2.0 #英语对话优化 #开源大模型 #多任务指令微调

下载量 178

发布时间 : 5/4/2023

模型简介

专为对话场景优化的开源大语言模型，支持英语交互，适用于多种文本生成任务

模型特点

多机构联合开发

由Ontocord.ai、ETH DS3Lab、MILA等顶尖AI研究机构共同参与开发

指令微调优化

使用OASST1和Dolly2数据集进行微调，显著提升对话响应质量

灵活部署方案

支持FP16/Int8量化推理，适应不同硬件环境（GPU/CPU）

模型能力

开放域对话

邮件撰写

知识问答

内容创作

头脑风暴

使用案例

日常助手

邮件撰写

帮助用户快速生成邀请邮件等日常文书

示例显示可生成符合社交礼仪的邀请内容

信息咨询

人物百科

回答关于历史人物/科学概念的基础问题

能准确描述艾伦·图灵等名人的基本信息

旅行规划

景点推荐

生成城市游玩清单和建议

可列出旧金山等城市的典型景点

🚀 RedPajama-INCITE-7B-Chat

RedPajama-INCITE-7B-Chat 由 Together 以及开源 AI 社区的领导者们共同开发，这些领导者来自 Ontocord.ai、ETH DS3Lab、AAI CERC、蒙特利尔大学、魁北克人工智能研究所 MILA、斯坦福基础模型研究中心 (CRFM)、斯坦福 Hazy Research 研究小组和 LAION。

该模型在 OASST1 和 Dolly2 上进行了微调，以增强其聊天能力。

基础模型：RedPajama-INCITE-7B-Base
指令微调版本：RedPajama-INCITE-7B-Instruct
聊天版本：RedPajama-INCITE-7B-Chat

✨ 主要特性

由多个开源 AI 社区的领导者共同开发，保证了模型开发的多元性和专业性。
在 OASST1 和 Dolly2 上进行微调，显著提升了聊天能力。

📦 安装指南

请注意，该模型需要 transformers 版本 >= 4.25.1。

若要使用 int8 进行推理，请确保已安装 accelerate 和 bitsandbytes，可以使用以下命令进行安装：

pip install accelerate
pip install bitsandbytes

💻 使用示例

基础用法

以下是在 GPU 上进行推理的示例代码：

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", torch_dtype=torch.float16)
model = model.to('cuda:0')
# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing (23 June 1912  7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, mathematician, and theoretical biologist.
"""

高级用法

GPU Inference in Int8

此方法需要一个具有 12GB 内存的 GPU。

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", device_map='auto', torch_dtype=torch.float16, load_in_8bit=True)

# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing (23 June 1912 – 7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, and theoretical biologist.
"""

CPU Inference

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", torch_dtype=torch.bfloat16)
# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing, OBE, FRS, (23 June 1912 – 7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, and theoretical biologist.
"""

⚠️ 重要提示

由于 LayerNormKernelImpl 未在 CPU 的 fp16 中实现，因此在 CPU 推理时使用 bfloat16。

📚 详细文档

模型详情

属性	详情
开发团队	Together Computer
模型类型	语言模型
支持语言	英语
许可证	Apache 2.0
模型描述	一个具有 69 亿参数的预训练语言模型