模型简介
模型特点
模型能力
使用案例
🚀 雅典娜 v4 - GPTQ
本项目提供了 IkariDev + Undi95 的雅典娜 v4 的 GPTQ 模型文件,包含多种量化参数选项,可根据硬件和需求选择,还介绍了不同方式的下载和使用方法。
🚀 快速开始
模型信息
属性 | 详情 |
---|---|
基础模型 | IkariDev/Athena-v4 |
推理 | 否 |
许可证 | cc-by-nc-4.0 |
模型创建者 | IkariDev + Undi95 |
模型名称 | 雅典娜 v4 |
模型类型 | llama |
提示模板 | Below is an instruction that describes a task. Write a response that appropriately completes the request.### Instruction:{prompt}### Response: |
量化者 | TheBloke |
模型仓库
- 适用于 GPU 推理的 AWQ 模型
- 适用于 GPU 推理的 GPTQ 模型,有多种量化参数选项
- 适用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- IkariDev + Undi95 原始的未量化 fp16 格式 PyTorch 模型,用于 GPU 推理和进一步转换
提示模板
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
✨ 主要特性
- 提供多种 GPTQ 量化参数选项,可根据硬件和需求选择最佳参数。
- 支持从不同分支下载模型,方便使用不同量化配置。
- 兼容多种推理工具和环境,如 text-generation-webui、Text Generation Inference (TGI) 等。
📦 安装指南
在 text-generation-webui 中下载
- 从
main
分支下载,在“下载模型”框中输入TheBloke/Athena-v4-GPTQ
。 - 从其他分支下载,在下载名称后添加
:branchname
,例如TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True
。
从命令行下载
推荐使用 huggingface-hub
Python 库:
pip3 install huggingface-hub
下载 main
分支到名为 Athena-v4-GPTQ
的文件夹:
mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False
从不同分支下载,添加 --revision
参数:
mkdir Athena-v4-GPTQ
huggingface-cli download TheBloke/Athena-v4-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athena-v4-GPTQ --local-dir-use-symlinks False
使用 git
下载(不推荐)
git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Athena-v4-GPTQ
💻 使用示例
在 text-generation-webui 中使用
- 点击“模型”选项卡。
- 在“下载自定义模型或 LoRA”下,输入
TheBloke/Athena-v4-GPTQ
。若从特定分支下载,输入如TheBloke/Athena-v4-GPTQ:gptq-4bit-32g-actorder_True
。 - 点击“下载”。
- 模型开始下载,完成后显示“完成”。
- 在左上角,点击“模型”旁边的刷新图标。
- 在“模型”下拉菜单中,选择刚下载的模型
Athena-v4-GPTQ
。 - 模型将自动加载,即可使用。
- 若需要自定义设置,设置后点击右上角的“保存此模型的设置”,然后点击“重新加载模型”。
- 准备好后,点击“文本生成”选项卡,输入提示开始使用。
从 Python 代码使用
安装必要的包
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用 CUDA 11.7,使用 cu117
若使用预构建的轮子安装 AutoGPTQ 有问题,从源代码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
使用代码示例
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Athena-v4-GPTQ"
# 若使用不同分支,更改 revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用 transformers 的 pipeline 进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
从 Text Generation Inference (TGI) 服务模型
推荐使用 TGI 版本 1.1.0 或更高版本,官方 Docker 容器为:ghcr.io/huggingface/text-generation-inference:1.1.0
示例 Docker 参数:
--model-id TheBloke/Athena-v4-GPTQ --port 3000 --quantize awq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
示例 Python 代码与 TGI 交互(需要 huggingface-hub 0.17.0 或更高版本):
pip3 install huggingface-hub
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"Model output: {response}")
🔧 技术细节
提供的文件和 GPTQ 参数
提供多种量化参数,每个单独的量化在不同分支中。大多数 GPTQ 文件使用 AutoGPTQ 制作,Mistral 模型目前使用 Transformers 制作。
分支 | 比特数 | 组大小 | Act Order | Damp % | GPTQ 数据集 | 序列长度 | 大小 | ExLlama 兼容性 | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | 是 | 0.1 | wikitext | 4096 | 7.26 GB | 是 | 4 位,带有 Act Order 和组大小 128g。比 64g 使用更少的 VRAM,但准确性稍低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.1 | wikitext | 4096 | 8.00 GB | 是 | 4 位,带有 Act Order 和组大小 32g。提供最高的推理质量,但使用最大的 VRAM。 |
gptq-8bit--1g-actorder_True | 8 | 无 | 是 | 0.1 | wikitext | 4096 | 13.36 GB | 否 | 8 位,带有 Act Order。无组大小,以降低 VRAM 需求。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.1 | wikitext | 4096 | 13.65 GB | 否 | 8 位,组大小 128g 以提高推理质量,带有 Act Order 以提高准确性。 |
gptq-8bit-32g-actorder_True | 8 | 32 | 是 | 0.1 | wikitext | 4096 | 14.54 GB | 否 | 8 位,组大小 32g 和 Act Order 以实现最大推理质量。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.1 | wikitext | 4096 | 7.51 GB | 是 | 4 位,带有 Act Order 和组大小 64g。比 32g 使用更少的 VRAM,但准确性稍低。 |
GPTQ 参数解释
- 比特数:量化模型的位大小。
- 组大小(GS):GPTQ 组大小。较高的数字使用更少的 VRAM,但量化准确性较低。“None”是最低可能值。
- Act Order:真或假。也称为
desc_act
。真会导致更好的量化准确性。一些 GPTQ 客户端在使用 Act Order 加组大小的模型时遇到问题,但现在通常已解决。 - Damp %:影响量化样本处理的 GPTQ 参数。默认值为 0.01,但 0.1 会导致稍高的准确性。
- GPTQ 数据集:量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化准确性。请注意,GPTQ 校准数据集与用于训练模型的数据集不同,请参考原始模型仓库了解训练数据集的详细信息。
- 序列长度:量化使用的数据集序列长度。理想情况下,这与模型序列长度相同。对于一些非常长序列的模型(16+K),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度,它仅影响较长推理序列的量化准确性。
- ExLlama 兼容性:此文件是否可以使用 ExLlama 加载,目前 ExLlama 仅支持 4 位的 Llama 模型。
📄 许可证
源模型的创建者将其许可证列为 cc-by-nc-4.0
,因此此量化使用了相同的许可证。由于此模型基于 Llama 2,它也受 Meta Llama 2 许可证条款的约束,并且还包含了该许可证文件。因此,应认为该模型声称同时受这两个许可证的约束。已联系 Hugging Face 以澄清双重许可问题,但他们尚未有官方立场。如果情况发生变化,或者 Meta 对此情况提供任何反馈,将相应更新此部分。
在此期间,有关许可的任何问题,特别是这两个许可证如何相互作用的问题,应直接咨询原始模型仓库:IkariDev + Undi95 的雅典娜 v4。
🔗 其他信息
兼容性
提供的文件经测试可与 AutoGPTQ 一起使用,可通过 Transformers 或直接使用 AutoGPTQ。它们也应与 Occ4m 的 GPTQ-for-LLaMa 分支 兼容。ExLlama 与 4 位的 Llama 和 Mistral 模型兼容。Huggingface Text Generation Inference (TGI) 与所有 GPTQ 模型兼容。
Discord 社区
如需进一步支持和讨论这些模型及 AI 相关内容,可加入 TheBloke AI 的 Discord 服务器。
贡献与感谢
感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay。如果愿意贡献,将不胜感激,这将有助于继续提供更多模型并开展新的 AI 项目。捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特别感谢 Aemon Algiz 以及众多 Patreon 支持者。
原始模型信息
模型评分
若希望自己的评分展示在此处,可在 Discord 上发送消息给 "ikaridev"。
使用的模型和配方
- Athena-v3
- Xwin-LM/Xwin-LM-13B-V0.1
- Undi95/PsyMedRP-v1-13B
- cgato/Thespis-13b-v0.2
- jondurbin/airoboros-l2-13b-3.0
Athena-v4-tmp1 = [ Athena-v3(0.85)+Xwin-LM/Xwin-LM-13B-V0.1(0.15) ]
Athena-v4-tmp2 = [ Undi95/PsyMedRP-v1-13B(0.55)+cgato/Thespis-13b-v0.2(0.45) ]
Athena-v4-tmp3 = Athena-v4-tmp1(0.55) + Athena-v4-tmp2(0.35)
Athena-v4 = Athena-v4-tmp3 + jondurbin/airoboros-l2-13b-3.0(0.1)
感谢 Undi95 为雅典娜 v2 和雅典娜 v3 提供机器,并提供相关信息。未来将使用朋友提供的合并服务器。



