RedPajama-INCITE-7B-Chat開源對話模型 - 免費使用實現智能對話交流

首頁

Redpajama INCITE 7B Chat

由togethercomputer開發

由Together聯合多個AI研究機構開發的69億參數對話專用語言模型，基於RedPajama-Data-1T數據集訓練，通過OASST1和Dolly2數據微調增強對話能力

大型語言模型

Transformers

英語開源協議:Apache-2.0 #英語對話優化 #開源大模型 #多任務指令微調

下載量 178

發布時間 : 5/4/2023

模型概述

專為對話場景優化的開源大語言模型，支持英語交互，適用於多種文本生成任務

模型特點

多機構聯合開發

由Ontocord.ai、ETH DS3Lab、MILA等頂尖AI研究機構共同參與開發

指令微調優化

使用OASST1和Dolly2數據集進行微調，顯著提升對話響應質量

靈活部署方案

支持FP16/Int8量化推理，適應不同硬件環境（GPU/CPU）

模型能力

開放域對話

郵件撰寫

知識問答

內容創作

頭腦風暴

使用案例

日常助手

郵件撰寫

幫助用戶快速生成邀請郵件等日常文書

示例顯示可生成符合社交禮儀的邀請內容

信息諮詢

人物百科

回答關於歷史人物/科學概念的基礎問題

能準確描述艾倫·圖靈等名人的基本信息

旅行規劃

景點推薦

生成城市遊玩清單和建議

可列出舊金山等城市的典型景點

🚀 RedPajama-INCITE-7B-Chat

RedPajama-INCITE-7B-Chat 由 Together 以及開源 AI 社區的領導者們共同開發，這些領導者來自 Ontocord.ai、ETH DS3Lab、AAI CERC、蒙特利爾大學、魁北克人工智能研究所 MILA、斯坦福基礎模型研究中心 (CRFM)、斯坦福 Hazy Research 研究小組和 LAION。

該模型在 OASST1 和 Dolly2 上進行了微調，以增強其聊天能力。

基礎模型：RedPajama-INCITE-7B-Base
指令微調版本：RedPajama-INCITE-7B-Instruct
聊天版本：RedPajama-INCITE-7B-Chat

✨ 主要特性

由多個開源 AI 社區的領導者共同開發，保證了模型開發的多元性和專業性。
在 OASST1 和 Dolly2 上進行微調，顯著提升了聊天能力。

📦 安裝指南

請注意，該模型需要 transformers 版本 >= 4.25.1。

若要使用 int8 進行推理，請確保已安裝 accelerate 和 bitsandbytes，可以使用以下命令進行安裝：

pip install accelerate
pip install bitsandbytes

💻 使用示例

基礎用法

以下是在 GPU 上進行推理的示例代碼：

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", torch_dtype=torch.float16)
model = model.to('cuda:0')
# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing (23 June 1912  7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, mathematician, and theoretical biologist.
"""

高級用法

GPU Inference in Int8

此方法需要一個具有 12GB 內存的 GPU。

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", device_map='auto', torch_dtype=torch.float16, load_in_8bit=True)

# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing (23 June 1912 – 7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, and theoretical biologist.
"""

CPU Inference

import torch
import transformers
from transformers import AutoTokenizer, AutoModelForCausalLM

MIN_TRANSFORMERS_VERSION = '4.25.1'

# check transformers version
assert transformers.__version__ >= MIN_TRANSFORMERS_VERSION, f'Please upgrade transformers to version {MIN_TRANSFORMERS_VERSION} or higher.'

# init
tokenizer = AutoTokenizer.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat")
model = AutoModelForCausalLM.from_pretrained("togethercomputer/RedPajama-INCITE-7B-Chat", torch_dtype=torch.bfloat16)
# infer
prompt = "<human>: Who is Alan Turing?\n<bot>:"
inputs = tokenizer(prompt, return_tensors='pt').to(model.device)
input_length = inputs.input_ids.shape[1]
outputs = model.generate(
    **inputs, max_new_tokens=128, do_sample=True, temperature=0.7, top_p=0.7, top_k=50, return_dict_in_generate=True
)
token = outputs.sequences[0, input_length:]
output_str = tokenizer.decode(token)
print(output_str)
"""
Alan Mathison Turing, OBE, FRS, (23 June 1912 – 7 June 1954) was an English computer scientist, mathematician, logician, cryptanalyst, philosopher, and theoretical biologist.
"""

⚠️ 重要提示

由於 LayerNormKernelImpl 未在 CPU 的 fp16 中實現，因此在 CPU 推理時使用 bfloat16。

📚 詳細文檔

模型詳情

屬性	詳情
開發團隊	Together Computer
模型類型	語言模型
支持語言	英語
許可證	Apache 2.0
模型描述	一個具有 69 億參數的預訓練語言模型