storytime-13B-GPTQ開源大語言模型 - 免費部署助力高質量中文故事創作

首頁

Storytime 13B GPTQ

由TheBloke開發

Storytime 13B 是一個基於 LLaMA 架構的大語言模型，專注於中文文本生成任務，尤其擅長故事創作。

大型語言模型

Transformers

英語#故事生成 #長文本處理 #中文支持

下載量 134

發布時間 : 9/23/2023

模型概述

該模型由 Charles Goddard 開發，基於 LLaMA 架構，經過優化用於中文文本生成。模型使用 Alpaca 風格的提示模板，適合創意寫作和故事生成任務。

模型特點

中文優化

專門針對中文文本生成進行了優化

故事創作

特別適合創意寫作和故事生成任務

Alpaca 提示模板

使用標準化的 Alpaca 風格提示模板，便於使用

多量化版本

提供多種 GPTQ 量化版本，適應不同硬件需求

模型能力

中文文本生成

故事創作

指令跟隨

創意寫作

使用案例

內容創作

故事生成

根據用戶提供的提示生成完整的故事

能夠生成連貫、有創意的故事情節

創意寫作輔助

幫助作家克服寫作障礙，提供創意靈感

提供多樣化的寫作思路和情節發展建議

教育

寫作教學

用於語言學習中的寫作練習

幫助學生練習中文寫作技巧

🚀 Storytime 13B - GPTQ

Storytime 13B - GPTQ 是一個經過量化處理的模型，為 Charles Goddard 的 Storytime 13B 提供了多種量化參數選項，以滿足不同硬件和需求。該模型適用於文本生成任務，尤其在故事創作方面表現出色。

🚀 快速開始

下載模型

在 text-generation-webui 中下載

若要從 main 分支下載，在 “Download model” 框中輸入 TheBloke/storytime-13B-GPTQ。
若要從其他分支下載，在下載名稱末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

從命令行下載

推薦使用 huggingface-hub Python 庫：

pip3 install huggingface-hub

將 main 分支下載到名為 storytime-13B-GPTQ 的文件夾：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要從不同分支下載，添加 --revision 參數：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

使用模型

在 text-generation-webui 中使用

點擊 Model tab。
在 Download custom model or LoRA 下輸入 TheBloke/storytime-13B-GPTQ。若要從特定分支下載，輸入如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。
點擊 Download。
模型開始下載，完成後顯示 “Done”。
在左上角點擊 Model 旁邊的刷新圖標。
在 Model 下拉菜單中選擇剛下載的模型：storytime-13B-GPTQ。
模型將自動加載，即可使用！
若需要自定義設置，設置後點擊 Save settings for this model，然後點擊右上角的 Reload the Model。
準備好後，點擊 Text Generation tab 並輸入提示詞開始！

從 Python 代碼使用

安裝必要的包

需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本：

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用預構建的輪子安裝 AutoGPTQ 有問題，可從源代碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代碼示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 若要使用不同分支，更改 revision
# 例如：revision="gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

✨ 主要特性

多種量化參數選項：提供多個 GPTQ 參數排列，可根據硬件和需求選擇最佳參數。
多平臺兼容性：與 AutoGPTQ、Occ4m's GPTQ-for-LLaMa fork、ExLlama（4 位 Llama 模型）和 Huggingface Text Generation Inference (TGI) 兼容。
支持 Alpaca 提示模板：能很好地響應 Alpaca 提示格式。

📦 安裝指南

下載模型

在 text-generation-webui 中下載

若要從 main 分支下載，在 “Download model” 框中輸入 TheBloke/storytime-13B-GPTQ。
若要從其他分支下載，在下載名稱末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

從命令行下載

推薦使用 huggingface-hub Python 庫：

pip3 install huggingface-hub

將 main 分支下載到名為 storytime-13B-GPTQ 的文件夾：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要從不同分支下載，添加 --revision 參數：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

安裝必要的 Python 包

需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本：

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用預構建的輪子安裝 AutoGPTQ 有問題，可從源代碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

高級用法

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 使用不同分支
revision = "gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision=revision)

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Create a short story about a hero"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

# 使用 pipeline 進行推理
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=1024,
    do_sample=True,
    temperature=0.8,
    top_p=0.9,
    top_k=50,
    repetition_penalty=1.2
)

print(pipe(prompt_template)[0]['generated_text'])

📚 詳細文檔

模型信息

屬性	詳情
模型創建者	Charles Goddard
原始模型	Storytime 13B
模型類型	llama
提示模板	Alpaca

可用倉庫

提供的文件和 GPTQ 參數

多個量化參數可供選擇，每個單獨的量化在不同分支中。所有近期的 GPTQ 文件使用 AutoGPTQ 製作，非 main 分支的所有文件都使用 AutoGPTQ 製作。main 分支中 2023 年 8 月之前上傳的文件使用 GPTQ-for-LLaMa 製作。

GPTQ 參數解釋

Bits：量化模型的位大小。
GS：GPTQ 組大小。較高的數字使用較少的 VRAM，但量化精度較低。“None” 是可能的最低值。
Act Order：True 或 False。也稱為 desc_act。True 會導致更好的量化精度。一些 GPTQ 客戶端在使用 Act Order 加組大小的模型時遇到過問題，但現在一般已解決。
Damp %：影響量化樣本處理方式的 GPTQ 參數。默認值為 0.01，但 0.1 會導致稍好的精度。
GPTQ 數據集：量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。請注意，GPTQ 校準數據集與用於訓練模型的數據集不同，請參考原始模型倉庫瞭解訓練數據集的詳細信息。
序列長度：用於量化的數據集序列長度。理想情況下，這與模型序列長度相同。對於一些非常長序列的模型（16+K），可能需要使用較低的序列長度。請注意，較低的序列長度不會限制量化模型的序列長度。它只會影響較長推理序列的量化精度。
ExLlama 兼容性：此文件是否可以使用 ExLlama 加載，目前 ExLlama 僅支持 4 位的 Llama 模型。

分支	Bits	GS	Act Order	Damp %	GPTQ 數據集	Seq Len	大小	ExLlama	描述
main	4	128	Yes	0.1	wikitext	4096	7.26 GB	Yes	4 位，帶有 Act Order 和組大小 128g。比 64g 使用更少的 VRAM，但精度稍低。
gptq-4-32g-actorder_True	4	32	Yes	0.1	wikitext	4096	8.00 GB	Yes	4 位，帶有 Act Order 和組大小 32g。提供最高的推理質量，但使用最大的 VRAM。
gptq-8--1g-actorder_True	8	None	Yes	0.1	wikitext	4096	13.36 GB	No	8 位，帶有 Act Order。無組大小，以降低 VRAM 要求。
gptq-8-128g-actorder_True	8	128	Yes	0.1	wikitext	4096	13.65 GB	No	8 位，帶有組大小 128g 以提高推理質量，帶有 Act Order 以提高精度。
gptq-8-32g-actorder_True	8	32	Yes	0.1	wikitext	4096	14.54 GB	No	8 位，帶有組大小 32g 和 Act Order 以實現最大推理質量。
gptq-4-64g-actorder_True	4	64	Yes	0.1	wikitext	4096	7.51 GB	Yes	4 位，帶有 Act Order 和組大小 64g。比 32g 使用更少的 VRAM，但精度稍低。

下載說明

在 text-generation-webui 中下載

若要從 main 分支下載，在 “Download model” 框中輸入 TheBloke/storytime-13B-GPTQ。
若要從其他分支下載，在下載名稱末尾添加 :branchname，例如 TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True。

從命令行下載

推薦使用 huggingface-hub Python 庫：

pip3 install huggingface-hub

將 main 分支下載到名為 storytime-13B-GPTQ 的文件夾：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

若要從不同分支下載，添加 --revision 參數：

mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

更高級的 huggingface-cli 下載用法

如果移除 --local-dir-use-symlinks False 參數，文件將存儲在中央 Huggingface 緩存目錄（Linux 上的默認位置是：~/.cache/huggingface），並將符號鏈接添加到指定的 --local-dir，指向它們在緩存中的實際位置。這允許中斷的下載繼續，並允許你快速將倉庫克隆到磁盤上的多個位置而無需再次觸發下載。缺點是文件隱藏在緩存文件夾中，很難知道磁盤空間的使用位置，並且在需要刪除下載的模型時難以清理。

緩存位置可以通過 HF_HOME 環境變量和/或 huggingface-cli 的 --cache-dir 參數更改。

有關使用 huggingface-cli 下載的更多文檔，請參閱：HF -> Hub Python 庫 -> 下載文件 -> 從 CLI 下載。

若要在高速連接（1Gbit/s 或更高）上加速下載，請安裝 hf_transfer：

pip3 install hf_transfer

並將環境變量 HF_HUB_ENABLE_HF_TRANSFER 設置為 1：

mkdir storytime-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False

Windows 命令行用戶：可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1 來設置環境變量。

使用 `git`（不推薦）

使用 git 克隆特定分支，使用如下命令：

git clone --single-branch --branch gptq-4-32g-actorder_True https://huggingface.co/TheBloke/storytime-13B-GPTQ

請注意，強烈不建議對 HF 倉庫使用 Git。它比使用 huggingface-hub 慢得多，並且會使用兩倍的磁盤空間，因為它必須將模型文件存儲兩次（它將每個字節存儲在目標文件夾和 .git 文件夾中作為 blob）。

兼容性

提供的文件經測試可與 AutoGPTQ 一起使用，可通過 Transformers 或直接使用 AutoGPTQ。它們也應與 Occ4m's GPTQ-for-LLaMa fork 一起使用。

ExLlama 與 4 位的 Llama 模型兼容。請參閱上面的提供文件表瞭解每個文件的兼容性。

Huggingface Text Generation Inference (TGI) 與所有 GPTQ 模型兼容。

🔧 技術細節

該模型基於 Charles Goddard 的 Storytime 13B 進行 GPTQ 量化處理。通過提供多個量化參數選項，用戶可以根據自己的硬件和需求選擇最合適的參數，以平衡 VRAM 使用和量化精度。量化過程中使用了特定的校準數據集（如 wikitext）來提高量化精度。

📄 許可證

該模型使用 llama2 許可證。

Discord

如需進一步支持，或討論這些模型和人工智能相關內容，請加入：

TheBloke AI 的 Discord 服務器

感謝與貢獻方式

感謝 chirper.ai 團隊！

感謝來自 gpus.llm-utils.org 的 Clay！

很多人詢問是否可以貢獻。作者喜歡提供模型並幫助他人，希望能夠花更多時間做這些事情，以及開展新的項目，如微調/訓練。

如果您有能力並願意貢獻，將非常感激，這將幫助作者繼續提供更多模型，並開始新的人工智能項目。

捐贈者將在任何和所有 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間，以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov

感謝所有慷慨的贊助者和捐贈者！

再次感謝 a16z 的慷慨資助。