DeciLM-6b-instruct开源英语语言模型 - 免费部署支持短格式指令跟随

首页

Decilm 6b Instruct

由 Deci 开发

DeciLM 6B-指令模型是一款专为短格式指令跟随设计的英语语言模型，基于DeciLM 6B通过LoRA微调技术训练而成

大型语言模型

Transformers

英语开源协议:其他 #高效推理优化 #英语指令跟随 #商业研究通用

下载量 105

发布时间 : 9/13/2023

模型简介

基于DeciLM 6B优化的指令跟随模型，适用于英语领域的商业和研究用途，可通过微调适配其他语言环境

模型特点

高效推理

采用可变分组查询注意力机制，显著提升推理效率

指令优化

专为短格式指令跟随场景设计，在OpenOrca数据集上微调

高性能

在多项基准测试中表现优异，如ARC挑战(44.43)、HellaSwag(74.57)等

模型能力

英语文本生成

指令理解与执行

问答系统

知识推理

使用案例

商业应用

客服助手

用于构建自动化客服系统，处理常见问题解答

教育研究

教学辅助

生成教学材料和分步骤指导说明

🚀 DeciLM 6B-Instruct

DeciLM 6B-Instruct 是一个用于短格式指令跟随的模型。它通过在 OpenOrca 数据集的一个子集上对 DeciLM 6B 进行 LoRA 微调而构建。

🚀 快速开始

模型使用

使用以下代码开始使用该模型：

# pip install -q transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

checkpoint = "Deci/DeciLM-6b-instruct"
device = "cuda" # for GPU usage or "cpu" for CPU usage

tokenizer = AutoTokenizer.from_pretrained(checkpoint)
model = AutoModelForCausalLM.from_pretrained(checkpoint, torch_dtype=torch.bfloat16, trust_remote_code=True).to(device)

inputs = tokenizer.encode("How do I make french toast? Think through it step by step", return_tensors="pt").to(device)
outputs = model.generate(inputs, max_new_tokens=100, do_sample=True, top_p=0.95)
print(tokenizer.decode(outputs[0]))

✨ 主要特性

开发团队：Deci
模型类型：DeciLM 是一种自回归语言模型，采用了优化的 Transformer 解码器架构，其中包括可变分组查询注意力（Grouped-Query Attention）。
支持语言：英语，该模型可用于商业和研究用途，也可以进行微调以支持其他语言。
许可证：Llama 2 社区许可协议，并由 Deci 针对托管服务提供商进行了扩展。

📚 详细文档

模型来源

训练详情

DeciLM 6B 使用 SlimPijamas 数据集进行训练，并利用先进的专有方法实现了快速训练。之后，在 OpenOrca 数据集的一个子集上进一步微调，从而得到了 DeciLM-6B-Instruct。

评估结果

以下是 DeciLM 6B-Instruct 的评估结果：

平均	ARC 挑战*	ARC 简单*	BoolQ	HellaSwag*	LAMBDA OpenAI	OpenBookQA	PIQA	TruthfulQA	Winogrande
62.01	44.43	70.58	77.34	74.57	70.1	33	77.52	43.89	67.64

注：Accuracy-norm score*

运行时基准测试

推理工具/硬件	A10（令牌/秒）
PyTorch	652.49
Infery LLM	2,029.6

吞吐量（令牌/秒） - 使用最佳批次进行测量 - PyTorch 批次大小 64，Infery LLM 批次大小 128
要复现 PyTorch 基准测试的结果，请使用此代码示例

免责声明

DeciLM 6B-Instruct 尚未进行安全对齐，也未使用基于人类反馈的强化学习（RLHF）进行训练。

引用方式

请使用以下格式引用此模型：

@misc{DeciFoundationModels,
title = {DeciLM 6B Instruct},
author = {DeciAI Research Team},
year = {2023}
url={[https://huggingface.co/Deci/DeciLM-6b-instruct](https://huggingface.co/Deci/DeciLM-6b-instruct)},
}

信息表格

属性	详情
模型类型	DeciLM 是一种自回归语言模型，采用了优化的 Transformer 解码器架构，其中包括可变分组查询注意力（Grouped-Query Attention）。
训练数据	SlimPijamas 数据集，OpenOrca 数据集的一个子集
许可证	Llama 2 社区许可协议，并由 Deci 针对托管服务提供商进行了扩展。