Dolphin 2.5 Mixtral 8X7B开源语言模型 - 免费部署胜任多类自然语言处理任务

首页

Dolphin 2.5 Mixtral 8x7b GPTQ

由 TheBloke 开发

Dolphin 2.5 Mixtral 8X7B 是由 Eric Hartford 开发的一个基于 Mixtral 架构的大型语言模型，经过多种高质量数据集的微调，适用于多种自然语言处理任务。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #多专家混合模型 #长序列处理 #指令微调

下载量 164

发布时间 : 12/14/2023

模型简介

该模型是一个基于 Mixtral 8X7B 架构的大型语言模型，经过 Dolphin 数据集的微调，支持多种自然语言处理任务，包括文本生成、代码生成等。

模型特点

多专家模型

基于 Mixtral 8X7B 架构，采用多专家模型设计，能够高效处理复杂任务。

高质量微调

使用多种高质量数据集（如 Dolphin、Airoboros、Synthia 等）进行微调，提升模型性能。

支持长上下文

支持长达 8192 的上下文长度，适合处理长文本任务。

量化支持

提供多种量化版本（如 3-bit、4-bit、8-bit），降低硬件需求。

模型能力

文本生成

代码生成

自然语言理解

指令跟随

使用案例

代码生成

代码补全

根据用户提供的代码片段生成补全代码。

生成高质量的代码补全建议。

代码解释

解释复杂代码的功能和逻辑。

提供清晰易懂的代码解释。

文本生成

创意写作

生成故事、诗歌等创意文本。

生成富有创意的文本内容。

技术文档

根据用户需求生成技术文档或说明。

生成结构清晰、内容准确的技术文档。

🚀 Dolphin 2.5 Mixtral 8X7B - GPTQ

本项目提供了Dolphin 2.5 Mixtral 8X7B模型的GPTQ量化版本，可用于不同硬件环境下的高效推理。该模型基于Mixtral架构，在多种数据集上进行训练，具备出色的编码能力和良好的通用性。

📦 模型信息

属性	详情
模型类型	Mixtral
训练数据	ehartford/dolphin、jondurbin/airoboros-2.2.1、ehartford/dolphin-coder、migtissera/Synthia-v1.3、teknium/openhermes、ise-uiuc/Magicoder-OSS-Instruct-75K、ise-uiuc/Magicoder-Evol-Instruct-110K、LDJnr/Pure-Dove
模型创建者	Eric Hartford
量化者	TheBloke
许可证	apache-2.0

✨ 主要特性

多数据集训练：使用多个高质量数据集进行训练，提升了模型的通用性和专业性。
多种量化选项：提供多种GPTQ量化参数，可根据硬件和需求选择最合适的版本。
高效推理：GPTQ量化模型在保证一定精度的前提下，显著减少了显存使用，提高了推理效率。

🚀 快速开始

下载模型

在text-generation-webui中下载

从main分支下载：在“Download model”框中输入TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ。
从其他分支下载：在下载名称末尾添加:branchname，例如TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ:gptq-4bit-128g-actorder_True。

从命令行下载

推荐使用huggingface-hub Python库：

pip3 install huggingface-hub

下载main分支到dolphin-2.5-mixtral-8x7b-GPTQ文件夹：

mkdir dolphin-2.5-mixtral-8x7b-GPTQ
huggingface-cli download TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ --local-dir dolphin-2.5-mixtral-8x7b-GPTQ --local-dir-use-symlinks False

从其他分支下载，添加--revision参数：

mkdir dolphin-2.5-mixtral-8x7b-GPTQ
huggingface-cli download TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir dolphin-2.5-mixtral-8x7b-GPTQ --local-dir-use-symlinks False

在text-generation-webui中使用

点击Model tab。
在Download custom model or LoRA下输入TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ。
- 若从特定分支下载，输入例如TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ:gptq-4bit-128g-actorder_True。
点击Download。
模型开始下载，完成后显示“Done”。
在左上角点击Model旁边的刷新图标。
在Model下拉菜单中选择刚下载的模型：dolphin-2.5-mixtral-8x7b-GPTQ。
模型将自动加载，即可使用！
若需要自定义设置，设置后点击Save settings for this model，然后点击右上角的Reload the Model。
准备好后，点击Text Generation标签，输入提示词开始！

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ"
# To use a different branch, change revision
# For example: revision="gptq-4bit-128g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Write a story about llamas"
system_message = "You are a story writing assistant"
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 详细文档

提示模板

本模型使用ChatML提示模板：

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

已知兼容的客户端/服务器

GPTQ模型目前支持Linux（NVidia/AMD）和Windows（仅NVidia）。macOS用户请使用GGUF模型。Mixtral GPTQ目前有特殊要求，请参阅上文描述。

提供的文件和GPTQ参数

提供了多个量化参数，允许您根据硬件和需求选择最佳参数。每个单独的量化版本位于不同的分支中，以下是获取不同分支的说明。大多数GPTQ文件使用AutoGPTQ制作，Mistral模型目前使用Transformers制作。

分支	比特数	组大小	Act Order	Damp %	GPTQ数据集	序列长度	大小	ExLlama兼容性	描述
main	4	None	Yes	0.1	VMware Open Instruct	8192	23.81 GB	No	4位，带有Act Order。无组大小，以降低显存需求。
gptq-4bit-128g-actorder_True	4	128	Yes	0.1	VMware Open Instruct	8192	24.70 GB	No	4位，带有Act Order和组大小128g。比64g使用更少的显存，但精度略低。
gptq-4bit-32g-actorder_True	4	32	Yes	0.1	VMware Open Instruct	8192	27.42 GB	No	4位，带有Act Order和组大小32g。提供最高的推理质量，但显存使用最大。
gptq-3bit--1g-actorder_True	3	None	Yes	0.1	VMware Open Instruct	8192	18.01 GB	No	3位，带有Act Order且无组大小。显存需求最低。可能比3位128g质量低。
gptq-3bit-128g-actorder_True	3	128	Yes	0.1	VMware Open Instruct	8192	18.85 GB	No	3位，带有组大小128g和Act Order。比128g-False质量高。
gptq-3bit-32g-actorder_True	3	32	Yes	0.1	VMware Open Instruct	8192	21.43 GB	No	3位，带有组大小64g和Act Order。3位选项中质量最高。
gptq-8bit--1g-actorder_True	8	None	Yes	0.1	VMware Open Instruct	8192	47.04 GB	No	8位，带有Act Order。无组大小，以降低显存需求。
gptq-8bit-128g-actorder_True	8	128	Yes	0.1	VMware Open Instruct	8192	48.10 GB	No	8位，带有组大小128g以提高推理质量，带有Act Order以提高精度。