Nethena-20B-GPTQ开源大语言模型 - 免费实现角色扮演与情感交互

首页

Nethena 20B GPTQ

由 TheBloke 开发

Nethena-20B是一个由NeverSleep开发的20B参数大语言模型，适用于角色扮演、情感交互及一般用途。

大型语言模型

Transformers

#角色扮演优化 #多模型融合 #长文本生成

下载量 29

发布时间 : 10/30/2023

模型简介

Nethena-20B是Echidna v0.3、Athena v3和Nete模型的结合体，旨在提供高质量的文本生成能力，特别适合角色扮演和情感交互场景。

模型特点

多模型融合

结合了Echidna、Athena和Nete三个模型的优势，提供更全面的文本生成能力。

角色扮演优化

特别适合角色扮演和情感交互场景，能够生成富有情感的回应。

Alpaca提示模板

使用Alpaca格式的提示模板，便于指令跟随和任务完成。

模型能力

文本生成

角色扮演

情感交互

指令跟随

使用案例

娱乐

角色扮演游戏

用于生成游戏中的角色对话和情节发展。

提供沉浸式的角色扮演体验。

情感交互

情感支持聊天

生成富有同情心和理解力的回应，用于情感支持场景。

帮助用户获得情感上的安慰和支持。

🚀 Nethena 20B - GPTQ

Nethena 20B - GPTQ 是一个经过量化处理的模型，包含多种 GPTQ 参数排列的模型文件，适用于不同的硬件和需求，可用于 GPU 推理和 CPU+GPU 推理。

项目信息

属性	详情
模型创建者	NeverSleep
原始模型	Nethena 20B
模型类型	llama
许可证	cc-by-nc-4.0
提示模板	Alpaca 格式，具体如下： `<br>Below is an instruction that describes a task. Write a response that appropriately completes the request.<br><br>### Instruction:<br>{prompt}<br><br>### Response:<br><br>`
量化者	TheBloke

项目展示

交流与支持：TheBloke 的 Discord 服务器

想要贡献？TheBloke 的 Patreon 页面

TheBloke 的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助

🚀 快速开始

本项目提供了多种不同量化参数的 GPTQ 模型文件，可根据自身硬件和需求进行选择。以下是一些使用指南：

已知兼容的客户端/服务器：

✨ 主要特性

提供多种 GPTQ 参数排列的模型文件，可根据硬件和需求选择最合适的量化模型。
每个单独的量化模型位于不同的分支，方便用户获取。
支持多种推理服务器和 Web UI，具有良好的兼容性。

📦 安装指南

在 text-generation-webui 中下载

从 main 分支下载：在“下载模型”框中输入 TheBloke/Nethena-20B-GPTQ。
从其他分支下载：在下载名称末尾添加 :branchname，例如 TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True。

从命令行下载

推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

下载 main 分支到名为 Nethena-20B-GPTQ 的文件夹：

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

从不同分支下载，添加 --revision 参数：

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

💻 使用示例

在 text-generation-webui 中使用

点击“模型”选项卡。
在“下载自定义模型或 LoRA”中输入 TheBloke/Nethena-20B-GPTQ。
- 若从特定分支下载，输入如 TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True。
点击“下载”。
下载完成后显示“完成”。
在左上角点击“模型”旁边的刷新图标。
在“模型”下拉菜单中选择刚下载的模型：Nethena-20B-GPTQ。
模型将自动加载，即可使用。
若需要自定义设置，设置后点击右上角的“保存此模型的设置”，然后点击“重新加载模型”。
- 注意：无需手动设置 GPTQ 参数，这些参数会从 quantize_config.json 文件中自动设置。
准备好后，点击“文本生成”选项卡，输入提示即可开始。

从 Python 代码使用

安装必要的包

需要：Transformers 4.33.0 或更高版本，Optimum 1.12.0 或更高版本，以及 AutoGPTQ 0.4.2 或更高版本。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用预构建的轮子安装 AutoGPTQ 有问题，可从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Nethena-20B-GPTQ"
# 若使用不同分支，更改 revision
# 例如：revision="gptq-4bit-128g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 进行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 详细文档

可用的仓库

提供的文件和 GPTQ 参数

提供多种量化参数，可根据硬件和需求选择。每个单独的量化模型位于不同的分支，以下是获取不同分支的说明。大多数 GPTQ 文件使用 AutoGPTQ 制作，Mistral 模型目前使用 Transformers 制作。

GPTQ 参数说明

- 位（Bits）：量化模型的位大小。 - 组大小（GS）：GPTQ 组大小。较高的数字使用较少的 VRAM，但量化精度较低。“None” 是最低可能值。 - 激活顺序（Act Order）：真或假。也称为 `desc_act`。真会导致更好的量化精度。一些 GPTQ 客户端在使用激活顺序加组大小的模型时遇到过问题，但现在一般已解决。 - 阻尼百分比（Damp %）：影响量化样本处理的 GPTQ 参数。默认值为 0.01，但 0.1 会导致稍好的精度。 - GPTQ 数据集：量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化精度。注意，GPTQ 校准数据集与训练模型使用的数据集不同，请参考原始模型仓库了解训练数据集的详细信息。 - 序列长度（Sequence Length）：量化期间使用的数据集序列长度。理想情况下，这与模型序列长度相同。对于一些非常长序列的模型（16K+），可能需要使用较低的序列长度。注意，较低的序列长度不会限制量化模型的序列长度，它只影响较长推理序列的量化精度。 - ExLlama 兼容性：此文件是否可以使用 ExLlama 加载，目前 ExLlama 仅支持 4 位的 Llama 和 Mistral 模型。

分支	位	组大小	激活顺序	阻尼百分比	GPTQ 数据集	序列长度	大小	ExLlama 兼容性	描述
main	4	None	是	0.1	wikitext	4096	10.52 GB	是	4 位，有激活顺序。无组大小，以降低 VRAM 需求。
gptq-4bit-128g-actorder_True	4	128	是	0.1	wikitext	4096	10.89 GB	是	4 位，有激活顺序和 128g 组大小。比 64g 使用更少的 VRAM，但精度稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	12.04 GB	是	4 位，有激活顺序和 32g 组大小。提供最高可能的推理质量，使用最大的 VRAM。
gptq-3bit-128g-actorder_True	3	128	是	0.1	wikitext	4096	8.41 GB	否	3 位，有 128g 组大小和激活顺序。比 128g-False 质量更高。
gptq-8bit--1g-actorder_True	8	None	是	0.1	wikitext	4096	20.35 GB	否	8 位，有激活顺序。无组大小，以降低 VRAM 需求。
gptq-3bit-32g-actorder_True	3	32	是	0.1	wikitext	4096	9.51 GB	否	3 位，有 64g 组大小和激活顺序。最高质量的 3 位选项。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	20.80 GB	否	8 位，有 128g 组大小以提高推理质量，有激活顺序以提高精度。

🔧 技术细节

这些文件使用 Massed Compute 提供的硬件进行量化。

📄 许可证

源模型的创建者将其许可证列为 cc-by-nc-4.0，因此此量化版本使用相同的许可证。由于此模型基于 Llama 2，它也受 Meta Llama 2 许可证条款的约束，并且额外包含了该许可证文件。因此，应认为该模型声称同时受这两种许可证的约束。我联系了 Hugging Face 以澄清双重许可问题，但他们尚未有官方立场。如果情况发生变化，或者 Meta 对此情况提供任何反馈，我将相应更新此部分。

在此期间，有关许可证的任何问题，特别是这两种许可证如何相互作用的问题，应直接咨询原始模型仓库：NeverSleep 的 Nethena 20B。

其他信息

Discord

如需进一步支持，以及讨论这些模型和一般人工智能，请加入： TheBloke AI 的 Discord 服务器

感谢与贡献方式

感谢 chirper.ai 团队！感谢 gpus.llm-utils.org 的 Clay！

很多人询问是否可以贡献。我喜欢提供模型并帮助他人，希望能够花更多时间做这件事，并扩展到新的项目，如微调/训练。

如果您有能力并愿意贡献，将不胜感激，这将帮助我继续提供更多模型，并开始新的人工智能项目。

捐赠者将在任何和所有人工智能/大语言模型/模型问题和请求上获得优先支持，访问私人 Discord 房间，以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius

感谢所有慷慨的赞助者和捐赠者！再次感谢 a16z 的慷慨资助。

原始模型卡片：NeverSleep 的 Nethena 20B

image/png

该模型是 IkariDev 和 Undi 的合作成果！

Nethena-20B 模型，使用 Alpaca 格式，适用于角色扮演（RP）、情感角色扮演（ERP）和一般任务。

如果我们将所有最佳模型结合起来会怎样？这就是答案：Echidna v0.3 + Athena v3 + Nete

该模型还有 13B 版本，可在此查看：Nethena 13B

描述

此仓库包含 Nethena-20B 的 fp16 文件。

评分

注意：我们已获得所有用户上传评分的许可，不会未经询问就截取随机评论并放在这里！目前尚无评分。如果您希望您的评分显示在这里，请在 Discord 上给我们发送消息，我们将在此处上传截图。Discord 名称为 “ikaridev” 和 “undi”。

使用的模型和 LoRA 及配方

NeverSleep/Echidna-13b-v0.3
IkariDev/Athena-v3
Undi95/Nete-13B

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

其他信息

Undi：如果您想支持我，可以点击此处。
IkariDev：请访问我的复古/新城市风格网站。

精选推荐AI模型

Llama 3 Typhoon V1.5x 8b Instruct

专为泰语设计的80亿参数指令模型，性能媲美GPT-3.5-turbo，优化了应用场景、检索增强生成、受限生成和推理任务

Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型，专为边缘设备推理设计，体积仅为Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基于RoBERTa架构的中文抽取式问答模型，适用于从给定文本中提取答案的任务。

智启未来，您的人工智能解决方案智库