Athena-v4-GPTQ开源大语言模型 - 免费部署支持角色扮演与通用场景

首页

Athena V4 GPTQ

由 TheBloke 开发

Athena v4是一个实验性的大型语言模型，适用于角色扮演、情感角色扮演及通用场景。使用Alpaca格式提示模板。

大型语言模型

Transformers

#角色扮演优化 #情感交互增强 #多模型融合

下载量 22

发布时间 : 10/8/2023

模型简介

Athena v4是IkariDev和Undi95开发的实验性语言模型，基于多个高质量模型合并而成，擅长角色扮演和通用任务处理。

模型特点

多模型融合

融合了Athena-v3、Xwin-LM、PsyMedRP等多个高质量模型的优势

角色扮演优化

特别优化了角色扮演和情感交互能力

Alpaca格式支持

使用标准Alpaca提示模板，便于集成和使用

模型能力

文本生成

对话系统

角色扮演

情感交互

指令跟随

使用案例

娱乐

角色扮演游戏

作为游戏NPC与玩家进行沉浸式互动

提供自然流畅的角色对话体验

创意写作

故事生成

根据提示生成连贯的故事情节

产生富有创意的叙事内容

🚀 雅典娜 v4 - GPTQ

本项目提供了 IkariDev + Undi95 的雅典娜 v4 的 GPTQ 模型文件，包含多种量化参数选项，可根据硬件和需求选择，还介绍了不同方式的下载和使用方法。

🚀 快速开始

模型信息

属性	详情
基础模型	IkariDev/Athena-v4
推理	否
许可证	cc-by-nc-4.0
模型创建者	IkariDev + Undi95
模型名称	雅典娜 v4
模型类型	llama
提示模板	`Below is an instruction that describes a task. Write a response that appropriately completes the request.### Instruction:{prompt}### Response:`
量化者	TheBloke

模型仓库

提示模板

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

✨ 主要特性

提供多种 GPTQ 量化参数选项，可根据硬件和需求选择最佳参数。
支持从不同分支下载模型，方便使用不同量化配置。
兼容多种推理工具和环境，如 text-generation-webui、Text Generation Inference (TGI) 等。

📦 安装指南

在 text-generation-webui 中下载

从 main 分支下载，在“下载模型”框中输入 TheBloke/Athena-v4-GPTQ。
从其他分支下载，在下载名称后添加 :branchname，例如 TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True。

从命令行下载

推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

下载 main 分支到名为 Athena-v4-GPTQ 的文件夹：

mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False

从不同分支下载，添加 --revision 参数：

mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False

使用 `git` 下载（不推荐）

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Athena-v4-GPTQ

💻 使用示例

在 text-generation-webui 中使用

点击“模型”选项卡。
在“下载自定义模型或 LoRA”下，输入 TheBloke/Athena-v4-GPTQ。若从特定分支下载，输入如 TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True。
点击“下载”。
模型开始下载，完成后显示“完成”。
在左上角，点击“模型”旁边的刷新图标。
在“模型”下拉菜单中，选择刚下载的模型 Athena-v4-GPTQ。
模型将自动加载，即可使用。
若需要自定义设置，设置后点击右上角的“保存此模型的设置”，然后点击“重新加载模型”。
准备好后，点击“文本生成”选项卡，输入提示开始使用。

从 Python 代码使用

安装必要的包

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用预构建的轮子安装 AutoGPTQ 有问题，从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Athena-v4-GPTQ"
# 若使用不同分支，更改 revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 进行推理

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

从 Text Generation Inference (TGI) 服务模型

推荐使用 TGI 版本 1.1.0 或更高版本，官方 Docker 容器为：ghcr.io/huggingface/text-generation-inference:1.1.0 示例 Docker 参数：

--model-id TheBloke/Athena-v4-GPTQ --port 3000 --quantize awq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

示例 Python 代码与 TGI 交互（需要 huggingface-hub 0.17.0 或更高版本）：

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

🔧 技术细节

提供的文件和 GPTQ 参数

提供多种量化参数，每个单独的量化在不同分支中。大多数 GPTQ 文件使用 AutoGPTQ 制作，Mistral 模型目前使用 Transformers 制作。

分支	比特数	组大小	Act Order	Damp %	GPTQ 数据集	序列长度	大小	ExLlama 兼容性	描述
main	4	128	是	0.1	wikitext	4096	7.26 GB	是	4 位，带有 Act Order 和组大小 128g。比 64g 使用更少的 VRAM，但准确性稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	8.00 GB	是	4 位，带有 Act Order 和组大小 32g。提供最高的推理质量，但使用最大的 VRAM。
gptq-8bit--1g-actorder_True	8	无	是	0.1	wikitext	4096	13.36 GB	否	8 位，带有 Act Order。无组大小，以降低 VRAM 需求。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	13.65 GB	否	8 位，组大小 128g 以提高推理质量，带有 Act Order 以提高准确性。
gptq-8bit-32g-actorder_True	8	32	是	0.1	wikitext	4096	14.54 GB	否	8 位，组大小 32g 和 Act Order 以实现最大推理质量。
gptq-4bit-64g-actorder_True	4	64	是	0.1	wikitext	4096	7.51 GB	是	4 位，带有 Act Order 和组大小 64g。比 32g 使用更少的 VRAM，但准确性稍低。

GPTQ 参数解释

比特数：量化模型的位大小。
组大小（GS）：GPTQ 组大小。较高的数字使用更少的 VRAM，但量化准确性较低。“None”是最低可能值。
Act Order：真或假。也称为 desc_act。真会导致更好的量化准确性。一些 GPTQ 客户端在使用 Act Order 加组大小的模型时遇到问题，但现在通常已解决。
Damp %：影响量化样本处理的 GPTQ 参数。默认值为 0.01，但 0.1 会导致稍高的准确性。
GPTQ 数据集：量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化准确性。请注意，GPTQ 校准数据集与用于训练模型的数据集不同，请参考原始模型仓库了解训练数据集的详细信息。
序列长度：量化使用的数据集序列长度。理想情况下，这与模型序列长度相同。对于一些非常长序列的模型（16+K），可能需要使用较低的序列长度。请注意，较低的序列长度不会限制量化模型的序列长度，它仅影响较长推理序列的量化准确性。
ExLlama 兼容性：此文件是否可以使用 ExLlama 加载，目前 ExLlama 仅支持 4 位的 Llama 模型。

📄 许可证

源模型的创建者将其许可证列为 cc-by-nc-4.0，因此此量化使用了相同的许可证。由于此模型基于 Llama 2，它也受 Meta Llama 2 许可证条款的约束，并且还包含了该许可证文件。因此，应认为该模型声称同时受这两个许可证的约束。已联系 Hugging Face 以澄清双重许可问题，但他们尚未有官方立场。如果情况发生变化，或者 Meta 对此情况提供任何反馈，将相应更新此部分。

在此期间，有关许可的任何问题，特别是这两个许可证如何相互作用的问题，应直接咨询原始模型仓库：IkariDev + Undi95 的雅典娜 v4。

🔗 其他信息

兼容性

提供的文件经测试可与 AutoGPTQ 一起使用，可通过 Transformers 或直接使用 AutoGPTQ。它们也应与 Occ4m 的 GPTQ-for-LLaMa 分支兼容。ExLlama 与 4 位的 Llama 和 Mistral 模型兼容。Huggingface Text Generation Inference (TGI) 与所有 GPTQ 模型兼容。

Discord 社区

如需进一步支持和讨论这些模型及 AI 相关内容，可加入 TheBloke AI 的 Discord 服务器。

贡献与感谢

感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay。如果愿意贡献，将不胜感激，这将有助于继续提供更多模型并开展新的 AI 项目。捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特别感谢 Aemon Algiz 以及众多 Patreon 支持者。

原始模型信息

模型评分

若希望自己的评分展示在此处，可在 Discord 上发送消息给 "ikaridev"。

使用的模型和配方

Athena-v3
Xwin-LM/Xwin-LM-13B-V0.1
Undi95/PsyMedRP-v1-13B
cgato/Thespis-13b-v0.2
jondurbin/airoboros-l2-13b-3.0

Athena-v4-tmp1 = [ Athena-v3(0.85)+Xwin-LM/Xwin-LM-13B-V0.1(0.15) ]
Athena-v4-tmp2 = [ Undi95/PsyMedRP-v1-13B(0.55)+cgato/Thespis-13b-v0.2(0.45) ]

Athena-v4-tmp3 = Athena-v4-tmp1(0.55) + Athena-v4-tmp2(0.35)

Athena-v4 = Athena-v4-tmp3 + jondurbin/airoboros-l2-13b-3.0(0.1)

感谢 Undi95 为雅典娜 v2 和雅典娜 v3 提供机器，并提供相关信息。未来将使用朋友提供的合并服务器。