模型简介
模型特点
模型能力
使用案例
🚀 Llama2 13B Tiefighter - GPTQ
本项目提供了 KoboldAI的Llama2 13B Tiefighter 的GPTQ模型文件,支持多种量化参数,可根据不同硬件和需求进行选择。

TheBloke的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助
✨ 主要特性
- 提供多种GPTQ量化参数选项,可根据硬件和需求选择。
- 支持多种推理服务器和Web UI,如text-generation-webui、KobaldAI United等。
- 支持从不同分支下载模型。
📦 安装指南
安装必要的Python库
pip3 install huggingface-hub
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 使用CUDA 11.7时用cu117
若使用预构建的轮子安装AutoGPTQ有问题,可从源码安装:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
下载模型
在text-generation-webui中下载
- 从
main
分支下载,在“Download model”框中输入TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。 - 从其他分支下载,在下载名称后添加
:branchname
,如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
。
从命令行下载
下载main
分支到名为LLaMA2-13B-Tiefighter-GPTQ
的文件夹:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
从不同分支下载,添加--revision
参数:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
💻 使用示例
在text-generation-webui中使用
- 点击Model tab。
- 在Download custom model or LoRA下输入
TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。- 从特定分支下载,输入如
TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
。
- 从特定分支下载,输入如
- 点击Download。
- 模型开始下载,完成后显示“Done”。
- 在左上角点击Model旁边的刷新图标。
- 在Model下拉菜单中选择刚下载的模型:
LLaMA2-13B-Tiefighter-GPTQ
。 - 模型自动加载,即可使用。
- 若需要自定义设置,设置后点击Save settings for this model,然后点击右上角的Reload the Model。
- 准备好后,点击Text Generation标签,输入提示开始!
从Python代码使用
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 要使用不同分支,更改revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
从Text Generation Inference (TGI)服务模型
建议使用TGI版本1.1.0或更高版本,官方Docker容器为:ghcr.io/huggingface/text-generation-inference:1.1.0
。
示例Docker参数:
--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
与TGI交互的示例Python代码(需要huggingface-hub 0.17.0或更高版本):
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"模型输出: {response}")
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | llama |
模型创建者 | KoboldAI |
原始模型 | Llama2 13B Tiefighter |
许可证 | llama2 |
提示模板
### Instruction:
{prompt}
### Response:
已知兼容的客户端/服务器
提供的文件和GPTQ参数
提供了多个量化参数,可根据硬件和需求选择最佳参数。每个单独的量化在不同的分支中,以下是从不同分支获取的说明。大多数GPTQ文件使用AutoGPTQ制作,Mistral模型目前使用Transformers制作。
GPTQ参数说明
- Bits:量化模型的位大小。
- GS:GPTQ组大小。较高的数字使用较少的VRAM,但量化精度较低。“None”是可能的最低值。
- Act Order:True或False。也称为
desc_act
。True可获得更好的量化精度。一些GPTQ客户端在使用Act Order和Group Size的模型时遇到过问题,但现在通常已解决。 - Damp %:影响量化样本处理方式的GPTQ参数。默认值为0.01,但0.1可获得稍好的精度。
- GPTQ数据集:量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化精度。请注意,GPTQ校准数据集与用于训练模型的数据集不同 - 请参考原始模型仓库了解训练数据集的详细信息。
- 序列长度:量化时使用的数据集序列长度。理想情况下,这与模型序列长度相同。对于一些非常长序列的模型(16+K),可能需要使用较低的序列长度。请注意,较低的序列长度不会限制量化模型的序列长度。它仅影响较长推理序列的量化精度。
- ExLlama兼容性:此文件是否可以使用ExLlama加载,目前ExLlama仅支持4位的Llama模型。
分支 | Bits | GS | Act Order | Damp % | GPTQ数据集 | Seq Len | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | 是 | 0.1 | wikitext | 4096 | 7.26 GB | 是 | 4位,带有Act Order和组大小128g。比32g使用更少的VRAM,但精度稍低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.1 | wikitext | 4096 | 8.00 GB | 是 | 4位,带有Act Order和组大小32g。可获得最高的推理质量,但使用最大的VRAM。 |
gptq-8bit--1g-actorder_True | 8 | 无 | 是 | 0.1 | wikitext | 4096 | 13.36 GB | 否 | 8位,带有Act Order。无组大小,以降低VRAM要求。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.1 | wikitext | 4096 | 13.65 GB | 否 | 8位,组大小为128g以提高推理质量,带有Act Order以获得更高的精度。 |
gptq-8bit-32g-actorder_True | 8 | 32 | 是 | 0.1 | wikitext | 4096 | 14.54 GB | 否 | 8位,组大小为32g和Act Order以获得最大的推理质量。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.1 | wikitext | 4096 | 7.51 GB | 是 | 4位,带有Act Order和组大小64g。比32g使用更少的VRAM,但精度稍低。 |
兼容性
提供的文件经测试可与Transformers一起使用。对于非Mistral模型,也可以直接使用AutoGPTQ。
ExLlama 与4位的Llama和Mistral模型兼容。请参阅上面的“提供的文件”表了解每个文件的兼容性。
原始模型信息
Tiefighter是通过在一个成熟的现有合并模型基础上合并两个不同的lora而得到的合并模型。具体步骤如下:
- 以Undi95/Xwin-MLewd-13B-V0.2为基础模型,该模型是一个成熟的合并模型,与名称相反,该模型没有很强的NSFW倾向。
- 应用PocketDoc/Dans-RetroRodeo-13b lora,这是在Skein模型的“Choose your own Adventure”数据集上进行微调的结果。
- 应用此lora后,将新模型与PocketDoc/Dans-RetroRodeo-13b以5%的比例合并,以削弱新引入的冒险倾向。
- 将得到的合并模型作为新的基础模型,应用Blackroot/Llama-2-13B-Storywriter-LORA,并再次以10%的比例重复相同的操作。
使用场景
故事写作
支持传统的故事写作方式,只需复制粘贴故事并继续编写。也可以在内存中使用指令或作者注释来引导故事的方向。
聊天机器人和角色模拟
该模型在各种聊天形式中进行了测试,测试者发现通常“少即是多”,模型善于即兴发挥。不要向模型提供大量详细信息,而是先保持简单,看看模型自身理解角色的能力有多强。对于这样的13B模型,复制粘贴大量背景信息并不合适,使用代码格式的角色或指令提示来描述你想与之交谈的对象会更有效。
指令提示
该模型集成了多种指令模型,支持多种指令风格。测试时使用了Alpaca格式,但也可以尝试其他喜欢的格式。在指令过程中,有时冒险数据可能会泄露,使用>
作为用户命令的前缀可能会有所改善,但这可能会导致更强的虚构倾向。
冒险和冒险游戏
该模型包含一个在与KoboldAI Skein模型相同的冒险数据集上训练的lora。最好在使用>
作为用户命令前缀(KoboldAI的冒险模式)时,对世界和目标进行简要介绍来进行冒险。
🔧 技术细节
本项目使用GPTQ量化技术对模型进行量化,以减少模型的内存占用和推理时间。不同的GPTQ参数会影响量化的精度和性能,用户可以根据自己的硬件和需求选择合适的参数。
📄 许可证
本项目使用llama2许可证。
Discord
如需进一步支持,或参与这些模型和人工智能的讨论,请加入: TheBloke AI的Discord服务器
感谢与贡献
感谢 chirper.ai 团队!感谢来自 gpus.llm-utils.org 的Clay!
如果您愿意贡献,将不胜感激,这将帮助我继续提供更多模型,并开展新的人工智能项目。捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持,访问私人Discord房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢:Aemon Algiz。
Patreon特别提及:Pierre Kircher、Stanislav Ovsiannikov等众多支持者。
感谢所有慷慨的赞助者和捐赠者!再次感谢a16z的慷慨资助。



