storytime-13B-GPTQ开源大语言模型 - 免费部署助力高质量中文故事创作

首页

Storytime 13B GPTQ

由 TheBloke 开发

Storytime 13B 是一个基于 LLaMA 架构的大语言模型，专注于中文文本生成任务，尤其擅长故事创作。

大型语言模型

Transformers

英语#故事生成 #长文本处理 #中文支持

下载量 134

发布时间 : 9/23/2023

模型简介

该模型由 Charles Goddard 开发，基于 LLaMA 架构，经过优化用于中文文本生成。模型使用 Alpaca 风格的提示模板，适合创意写作和故事生成任务。

模型特点

中文优化

专门针对中文文本生成进行了优化

故事创作

特别适合创意写作和故事生成任务

Alpaca 提示模板

使用标准化的 Alpaca 风格提示模板，便于使用

多量化版本

提供多种 GPTQ 量化版本，适应不同硬件需求

模型能力

中文文本生成

故事创作

指令跟随

创意写作

使用案例

内容创作

故事生成

根据用户提供的提示生成完整的故事

能够生成连贯、有创意的故事情节

创意写作辅助

帮助作家克服写作障碍，提供创意灵感

提供多样化的写作思路和情节发展建议

教育

写作教学

用于语言学习中的写作练习

帮助学生练习中文写作技巧

🚀 Storytime 13B - GPTQ

Storytime 13B - GPTQ 是一个经过量化处理的模型，为 Charles Goddard 的 Storytime 13B 提供了多种量化参数选项，以满足不同硬件和需求。该模型适用于文本生成任务，尤其在故事创作方面表现出色。

🚀 快速开始

下载模型

在 text-generation-webui 中下载

若要从 main 分支下载，在 “Download model” 框中输入 TheBloke/storytime-13B-GPTQ。
若要从其他分支下载，在下载名称末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

从命令行下载

推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

将 main 分支下载到名为 storytime-13B-GPTQ 的文件夹：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要从不同分支下载，添加 --revision 参数：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

使用模型

在 text-generation-webui 中使用

点击 Model tab。
在 Download custom model or LoRA 下输入 TheBloke/storytime-13B-GPTQ。若要从特定分支下载，输入如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。
点击 Download。
模型开始下载，完成后显示 “Done”。
在左上角点击 Model 旁边的刷新图标。
在 Model 下拉菜单中选择刚下载的模型：storytime-13B-GPTQ。
模型将自动加载，即可使用！
若需要自定义设置，设置后点击 Save settings for this model，然后点击右上角的 Reload the Model。
准备好后，点击 Text Generation tab 并输入提示词开始！

从 Python 代码使用

安装必要的包

需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本：

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用预构建的轮子安装 AutoGPTQ 有问题，可从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代码示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 若要使用不同分支，更改 revision
# 例如：revision="gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 进行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

✨ 主要特性

多种量化参数选项：提供多个 GPTQ 参数排列，可根据硬件和需求选择最佳参数。
多平台兼容性：与 AutoGPTQ、Occ4m's GPTQ-for-LLaMa fork、ExLlama（4 位 Llama 模型）和 Huggingface Text Generation Inference (TGI) 兼容。
支持 Alpaca 提示模板：能很好地响应 Alpaca 提示格式。

📦 安装指南

下载模型

在 text-generation-webui 中下载

若要从 main 分支下载，在 “Download model” 框中输入 TheBloke/storytime-13B-GPTQ。
若要从其他分支下载，在下载名称末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

从命令行下载

推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

将 main 分支下载到名为 storytime-13B-GPTQ 的文件夹：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要从不同分支下载，添加 --revision 参数：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

安装必要的 Python 包

需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本：

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用预构建的轮子安装 AutoGPTQ 有问题，可从源代码安装：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

💻 使用示例

基础用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

高级用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 使用不同分支
revision = "gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision=revision)

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Create a short story about a hero"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

# 使用 pipeline 进行推理
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.8,
    top_p=0.9,
    top_k=50,
    repetition_penalty=1.2
)

print(pipe(prompt_template)[0]['generated_text'])

📚 详细文档

模型信息

属性	详情
模型创建者	Charles Goddard
原始模型	Storytime 13B
模型类型	llama
提示模板	Alpaca

可用仓库

提供的文件和 GPTQ 参数

多个量化参数可供选择，每个单独的量化在不同分支中。所有近期的 GPTQ 文件使用 AutoGPTQ 制作，非 main 分支的所有文件都使用 AutoGPTQ 制作。main 分支中 2023 年 8 月之前上传的文件使用 GPTQ-for-LLaMa 制作。

GPTQ 参数解释

Bits：量化模型的位大小。
GS：GPTQ 组大小。较高的数字使用较少的 VRAM，但量化精度较低。“None” 是可能的最低值。
Act Order：True 或 False。也称为 desc_act。True 会导致更好的量化精度。一些 GPTQ 客户端在使用 Act Order 加组大小的模型时遇到过问题，但现在一般已解决。
Damp %：影响量化样本处理方式的 GPTQ 参数。默认值为 0.01，但 0.1 会导致稍好的精度。
GPTQ 数据集：量化期间使用的校准数据集。使用更适合模型训练的数据集可以提高量化精度。请注意，GPTQ 校准数据集与用于训练模型的数据集不同，请参考原始模型仓库了解训练数据集的详细信息。
序列长度：用于量化的数据集序列长度。理想情况下，这与模型序列长度相同。对于一些非常长序列的模型（16+K），可能需要使用较低的序列长度。请注意，较低的序列长度不会限制量化模型的序列长度。它只会影响较长推理序列的量化精度。
ExLlama 兼容性：此文件是否可以使用 ExLlama 加载，目前 ExLlama 仅支持 4 位的 Llama 模型。

分支	Bits	GS	Act Order	Damp %	GPTQ 数据集	Seq Len	大小	ExLlama	描述
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4 位，带有 Act Order 和组大小 128g。比 64g 使用更少的 VRAM，但精度稍低。
gptq-4-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4 位，带有 Act Order 和组大小 32g。提供最高的推理质量，但使用最大的 VRAM。
gptq-8--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8 位，带有 Act Order。无组大小，以降低 VRAM 要求。
gptq-8-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8 位，带有组大小 128g 以提高推理质量，带有 Act Order 以提高精度。
gptq-8-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8 位，带有组大小 32g 和 Act Order 以实现最大推理质量。
gptq-4-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4 位，带有 Act Order 和组大小 64g。比 32g 使用更少的 VRAM，但精度稍低。

下载说明

在 text-generation-webui 中下载

若要从 main 分支下载，在 “Download model” 框中输入 TheBloke/storytime-13B-GPTQ。
若要从其他分支下载，在下载名称末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

从命令行下载

推荐使用 huggingface-hub Python 库：

pip3 install huggingface-hub

将 main 分支下载到名为 storytime-13B-GPTQ 的文件夹：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要从不同分支下载，添加 --revision 参数：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

更高级的 huggingface-cli 下载用法

如果移除 --local-dir-use-symlinks False 参数，文件将存储在中央 Huggingface 缓存目录（Linux 上的默认位置是：~/.cache/huggingface），并将符号链接添加到指定的 --local-dir，指向它们在缓存中的实际位置。这允许中断的下载继续，并允许你快速将仓库克隆到磁盘上的多个位置而无需再次触发下载。缺点是文件隐藏在缓存文件夹中，很难知道磁盘空间的使用位置，并且在需要删除下载的模型时难以清理。

缓存位置可以通过 HF_HOME 环境变量和/或 huggingface-cli 的 --cache-dir 参数更改。

有关使用 huggingface-cli 下载的更多文档，请参阅：HF -> Hub Python 库 -> 下载文件 -> 从 CLI 下载。

若要在高速连接（1Gbit/s 或更高）上加速下载，请安装 hf_transfer：

pip3 install hf_transfer

并将环境变量 HF_HUB_ENABLE_HF_TRANSFER 设置为 1：

mkdir storytime-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

Windows 命令行用户：可以在下载命令前运行 set HF_HUB_ENABLE_HF_TRANSFER=1 来设置环境变量。

使用 `git`（不推荐）

使用 git 克隆特定分支，使用如下命令：

git clone --single-branch --branch gptq-4-32g-actorder_True https://huggingface.co/TheBloke/storytime-13B-GPTQ

请注意，强烈不建议对 HF 仓库使用 Git。它比使用 huggingface-hub 慢得多，并且会使用两倍的磁盘空间，因为它必须将模型文件存储两次（它将每个字节存储在目标文件夹和 .git 文件夹中作为 blob）。

兼容性

提供的文件经测试可与 AutoGPTQ 一起使用，可通过 Transformers 或直接使用 AutoGPTQ。它们也应与 Occ4m's GPTQ-for-LLaMa fork 一起使用。

ExLlama 与 4 位的 Llama 模型兼容。请参阅上面的提供文件表了解每个文件的兼容性。

Huggingface Text Generation Inference (TGI) 与所有 GPTQ 模型兼容。

🔧 技术细节

该模型基于 Charles Goddard 的 Storytime 13B 进行 GPTQ 量化处理。通过提供多个量化参数选项，用户可以根据自己的硬件和需求选择最合适的参数，以平衡 VRAM 使用和量化精度。量化过程中使用了特定的校准数据集（如 wikitext）来提高量化精度。

📄 许可证

该模型使用 llama2 许可证。

Discord

如需进一步支持，或讨论这些模型和人工智能相关内容，请加入：

TheBloke AI 的 Discord 服务器

感谢与贡献方式

感谢 chirper.ai 团队！

感谢来自 gpus.llm-utils.org 的 Clay！

很多人询问是否可以贡献。作者喜欢提供模型并帮助他人，希望能够花更多时间做这些事情，以及开展新的项目，如微调/训练。

如果您有能力并愿意贡献，将非常感激，这将帮助作者继续提供更多模型，并开始新的人工智能项目。

捐赠者将在任何和所有 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢：Aemon Algiz。

Patreon 特别提及：Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov

感谢所有慷慨的赞助者和捐赠者！

再次感谢 a16z 的慷慨资助。