LLaMA2-13B-Tiefighter-GPTQ开源大语言模型 - 免费部署，创意写作与角色扮演能手

首页

Llama2 13B Tiefighter GPTQ

由 TheBloke 开发

Tiefighter是一个通过合并两个不同的LoRA在现有成熟合并模型基础上实现的13B参数大语言模型，擅长创意写作和角色扮演。

大型语言模型

Transformers

#创意写作 #角色扮演 #冒险游戏

下载量 94

发布时间 : 10/22/2023

模型简介

该模型基于LLaMA2-13B架构，通过合并多个优秀模型和LoRA适配器而成，特别优化了创意写作、故事生成和角色扮演能力。

模型特点

创意写作优化

特别适合故事创作和创意写作任务，能够生成连贯的长篇内容

角色扮演能力

经过调整可支持复杂的角色扮演场景，能保持角色一致性

多模型融合

融合了多个优秀上游模型的优势，包括Xwin-MLewd、RetroRodeo和Storywriter等

灵活提示格式

支持多种指令格式，包括Alpaca格式和自由聊天模式

模型能力

文本生成

对话系统

故事创作

角色扮演

指令跟随

创意写作

使用案例

内容创作

小说写作

生成连贯的小说章节和情节发展

能够创作具有逻辑性的长篇故事内容

剧本创作

生成包含对话和场景描述的剧本

能保持角色对话风格一致性

娱乐应用

文字冒险游戏

作为游戏引擎驱动基于文本的冒险游戏

支持>命令形式的冒险模式交互

角色扮演聊天

模拟特定角色的对话行为

能根据简单提示即兴发挥角色特性

🚀 Llama2 13B Tiefighter - GPTQ

本项目提供了 KoboldAI的Llama2 13B Tiefighter 的GPTQ模型文件，支持多种量化参数，可根据不同硬件和需求进行选择。

交流与支持：TheBloke的Discord服务器

想要贡献？TheBloke的Patreon页面

TheBloke的大语言模型工作得到了 andreessen horowitz (a16z) 的慷慨资助

✨ 主要特性

提供多种GPTQ量化参数选项，可根据硬件和需求选择。
支持多种推理服务器和Web UI，如text-generation-webui、KobaldAI United等。
支持从不同分支下载模型。

📦 安装指南

安装必要的Python库

pip3 install huggingface-hub
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 使用CUDA 11.7时用cu117

若使用预构建的轮子安装AutoGPTQ有问题，可从源码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

下载模型

在text-generation-webui中下载

从main分支下载，在“Download model”框中输入TheBloke/LLaMA2-13B-Tiefighter-GPTQ。
从其他分支下载，在下载名称后添加:branchname，如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True。

从命令行下载

下载main分支到名为LLaMA2-13B-Tiefighter-GPTQ的文件夹：

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

从不同分支下载，添加--revision参数：

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

💻 使用示例

在text-generation-webui中使用

点击Model tab。
在Download custom model or LoRA下输入TheBloke/LLaMA2-13B-Tiefighter-GPTQ。
- 从特定分支下载，输入如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True。
点击Download。
模型开始下载，完成后显示“Done”。
在左上角点击Model旁边的刷新图标。
在Model下拉菜单中选择刚下载的模型：LLaMA2-13B-Tiefighter-GPTQ。
模型自动加载，即可使用。
若需要自定义设置，设置后点击Save settings for this model，然后点击右上角的Reload the Model。
准备好后，点击Text Generation标签，输入提示开始！

从Python代码使用

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 要使用不同分支，更改revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用transformers的pipeline进行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

从Text Generation Inference (TGI)服务模型

建议使用TGI版本1.1.0或更高版本，官方Docker容器为：ghcr.io/huggingface/text-generation-inference:1.1.0。示例Docker参数：

--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

与TGI交互的示例Python代码（需要huggingface-hub 0.17.0或更高版本）：

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"模型输出: {response}")

📚 详细文档

模型信息

属性	详情
模型类型	llama
模型创建者	KoboldAI
原始模型	Llama2 13B Tiefighter
许可证	llama2

提示模板

### Instruction: 
{prompt}
### Response:

已知兼容的客户端/服务器

提供的文件和GPTQ参数

提供了多个量化参数，可根据硬件和需求选择最佳参数。每个单独的量化在不同的分支中，以下是从不同分支获取的说明。大多数GPTQ文件使用AutoGPTQ制作，Mistral模型目前使用Transformers制作。

GPTQ参数说明

Bits：量化模型的位大小。
GS：GPTQ组大小。较高的数字使用较少的VRAM，但量化精度较低。“None”是可能的最低值。
Act Order：True或False。也称为desc_act。True可获得更好的量化精度。一些GPTQ客户端在使用Act Order和Group Size的模型时遇到过问题，但现在通常已解决。
Damp %：影响量化样本处理方式的GPTQ参数。默认值为0.01，但0.1可获得稍好的精度。
GPTQ数据集：量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化精度。请注意，GPTQ校准数据集与用于训练模型的数据集不同 - 请参考原始模型仓库了解训练数据集的详细信息。
序列长度：量化时使用的数据集序列长度。理想情况下，这与模型序列长度相同。对于一些非常长序列的模型（16+K），可能需要使用较低的序列长度。请注意，较低的序列长度不会限制量化模型的序列长度。它仅影响较长推理序列的量化精度。
ExLlama兼容性：此文件是否可以使用ExLlama加载，目前ExLlama仅支持4位的Llama模型。

分支	Bits	GS	Act Order	Damp %	GPTQ数据集	Seq Len	大小	ExLlama	描述
main	4	128	是	0.1	wikitext	4096	7.26 GB	是	4位，带有Act Order和组大小128g。比32g使用更少的VRAM，但精度稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	8.00 GB	是	4位，带有Act Order和组大小32g。可获得最高的推理质量，但使用最大的VRAM。
gptq-8bit--1g-actorder_True	8	无	是	0.1	wikitext	4096	13.36 GB	否	8位，带有Act Order。无组大小，以降低VRAM要求。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	13.65 GB	否	8位，组大小为128g以提高推理质量，带有Act Order以获得更高的精度。
gptq-8bit-32g-actorder_True	8	32	是	0.1	wikitext	4096	14.54 GB	否	8位，组大小为32g和Act Order以获得最大的推理质量。
gptq-4bit-64g-actorder_True	4	64	是	0.1	wikitext	4096	7.51 GB	是	4位，带有Act Order和组大小64g。比32g使用更少的VRAM，但精度稍低。

兼容性

提供的文件经测试可与Transformers一起使用。对于非Mistral模型，也可以直接使用AutoGPTQ。

ExLlama 与4位的Llama和Mistral模型兼容。请参阅上面的“提供的文件”表了解每个文件的兼容性。

原始模型信息

Tiefighter是通过在一个成熟的现有合并模型基础上合并两个不同的lora而得到的合并模型。具体步骤如下：

以Undi95/Xwin-MLewd-13B-V0.2为基础模型，该模型是一个成熟的合并模型，与名称相反，该模型没有很强的NSFW倾向。
应用PocketDoc/Dans-RetroRodeo-13b lora，这是在Skein模型的“Choose your own Adventure”数据集上进行微调的结果。
应用此lora后，将新模型与PocketDoc/Dans-RetroRodeo-13b以5%的比例合并，以削弱新引入的冒险倾向。
将得到的合并模型作为新的基础模型，应用Blackroot/Llama-2-13B-Storywriter-LORA，并再次以10%的比例重复相同的操作。