模型概述
模型特點
模型能力
使用案例
🚀 Storytime 13B - GPTQ
Storytime 13B - GPTQ 是一個經過量化處理的模型,為 Charles Goddard 的 Storytime 13B 提供了多種量化參數選項,以滿足不同硬件和需求。該模型適用於文本生成任務,尤其在故事創作方面表現出色。
🚀 快速開始
下載模型
在 text-generation-webui 中下載
- 若要從
main
分支下載,在 “Download model” 框中輸入TheBloke/storytime-13B-GPTQ
。 - 若要從其他分支下載,在下載名稱末尾添加
:branchname
,例如TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
。
從命令行下載
推薦使用 huggingface-hub
Python 庫:
pip3 install huggingface-hub
將 main
分支下載到名為 storytime-13B-GPTQ
的文件夾:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
若要從不同分支下載,添加 --revision
參數:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
使用模型
在 text-generation-webui 中使用
- 點擊 Model tab。
- 在 Download custom model or LoRA 下輸入
TheBloke/storytime-13B-GPTQ
。若要從特定分支下載,輸入如TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
。 - 點擊 Download。
- 模型開始下載,完成後顯示 “Done”。
- 在左上角點擊 Model 旁邊的刷新圖標。
- 在 Model 下拉菜單中選擇剛下載的模型:
storytime-13B-GPTQ
。 - 模型將自動加載,即可使用!
- 若需要自定義設置,設置後點擊 Save settings for this model,然後點擊右上角的 Reload the Model。
- 準備好後,點擊 Text Generation tab 並輸入提示詞開始!
從 Python 代碼使用
安裝必要的包
需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本:
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用 CUDA 11.7,使用 cu117
若使用預構建的輪子安裝 AutoGPTQ 有問題,可從源代碼安裝:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
使用代碼示例
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 若要使用不同分支,更改 revision
# 例如:revision="gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
✨ 主要特性
- 多種量化參數選項:提供多個 GPTQ 參數排列,可根據硬件和需求選擇最佳參數。
- 多平臺兼容性:與 AutoGPTQ、Occ4m's GPTQ-for-LLaMa fork、ExLlama(4 位 Llama 模型)和 Huggingface Text Generation Inference (TGI) 兼容。
- 支持 Alpaca 提示模板:能很好地響應 Alpaca 提示格式。
📦 安裝指南
下載模型
在 text-generation-webui 中下載
- 若要從
main
分支下載,在 “Download model” 框中輸入TheBloke/storytime-13B-GPTQ
。 - 若要從其他分支下載,在下載名稱末尾添加
:branchname
,例如TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
。
從命令行下載
推薦使用 huggingface-hub
Python 庫:
pip3 install huggingface-hub
將 main
分支下載到名為 storytime-13B-GPTQ
的文件夾:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
若要從不同分支下載,添加 --revision
參數:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
安裝必要的 Python 包
需要 Transformers 4.33.0 或更高版本、Optimum 1.12.0 或更高版本以及 AutoGPTQ 0.4.2 或更高版本:
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用 CUDA 11.7,使用 cu117
若使用預構建的輪子安裝 AutoGPTQ 有問題,可從源代碼安裝:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/storytime-13B-GPTQ"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
高級用法
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/storytime-13B-GPTQ"
# 使用不同分支
revision = "gptq-4-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision=revision)
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Create a short story about a hero"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
# 使用 pipeline 進行推理
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=1024,
do_sample=True,
temperature=0.8,
top_p=0.9,
top_k=50,
repetition_penalty=1.2
)
print(pipe(prompt_template)[0]['generated_text'])
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型創建者 | Charles Goddard |
原始模型 | Storytime 13B |
模型類型 | llama |
提示模板 | Alpaca |
可用倉庫
- AWQ 模型(用於 GPU 推理)
- GPTQ 模型(用於 GPU 推理,有多個量化參數選項)
- 2、3、4、5、6 和 8 位 GGUF 模型(用於 CPU+GPU 推理)
- Charles Goddard 原始未量化的 fp16 模型(pytorch 格式,用於 GPU 推理和進一步轉換)
提供的文件和 GPTQ 參數
多個量化參數可供選擇,每個單獨的量化在不同分支中。所有近期的 GPTQ 文件使用 AutoGPTQ 製作,非 main
分支的所有文件都使用 AutoGPTQ 製作。main
分支中 2023 年 8 月之前上傳的文件使用 GPTQ-for-LLaMa 製作。
GPTQ 參數解釋
- Bits:量化模型的位大小。
- GS:GPTQ 組大小。較高的數字使用較少的 VRAM,但量化精度較低。“None” 是可能的最低值。
- Act Order:True 或 False。也稱為
desc_act
。True 會導致更好的量化精度。一些 GPTQ 客戶端在使用 Act Order 加組大小的模型時遇到過問題,但現在一般已解決。 - Damp %:影響量化樣本處理方式的 GPTQ 參數。默認值為 0.01,但 0.1 會導致稍好的精度。
- GPTQ 數據集:量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。請注意,GPTQ 校準數據集與用於訓練模型的數據集不同,請參考原始模型倉庫瞭解訓練數據集的詳細信息。
- 序列長度:用於量化的數據集序列長度。理想情況下,這與模型序列長度相同。對於一些非常長序列的模型(16+K),可能需要使用較低的序列長度。請注意,較低的序列長度不會限制量化模型的序列長度。它只會影響較長推理序列的量化精度。
- ExLlama 兼容性:此文件是否可以使用 ExLlama 加載,目前 ExLlama 僅支持 4 位的 Llama 模型。
分支 | Bits | GS | Act Order | Damp % | GPTQ 數據集 | Seq Len | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | Yes | 0.1 | wikitext | 4096 | 7.26 GB | Yes | 4 位,帶有 Act Order 和組大小 128g。比 64g 使用更少的 VRAM,但精度稍低。 |
gptq-4-32g-actorder_True | 4 | 32 | Yes | 0.1 | wikitext | 4096 | 8.00 GB | Yes | 4 位,帶有 Act Order 和組大小 32g。提供最高的推理質量,但使用最大的 VRAM。 |
gptq-8--1g-actorder_True | 8 | None | Yes | 0.1 | wikitext | 4096 | 13.36 GB | No | 8 位,帶有 Act Order。無組大小,以降低 VRAM 要求。 |
gptq-8-128g-actorder_True | 8 | 128 | Yes | 0.1 | wikitext | 4096 | 13.65 GB | No | 8 位,帶有組大小 128g 以提高推理質量,帶有 Act Order 以提高精度。 |
gptq-8-32g-actorder_True | 8 | 32 | Yes | 0.1 | wikitext | 4096 | 14.54 GB | No | 8 位,帶有組大小 32g 和 Act Order 以實現最大推理質量。 |
gptq-4-64g-actorder_True | 4 | 64 | Yes | 0.1 | wikitext | 4096 | 7.51 GB | Yes | 4 位,帶有 Act Order 和組大小 64g。比 32g 使用更少的 VRAM,但精度稍低。 |
下載說明
在 text-generation-webui 中下載
- 若要從
main
分支下載,在 “Download model” 框中輸入TheBloke/storytime-13B-GPTQ
。 - 若要從其他分支下載,在下載名稱末尾添加
:branchname
,例如TheBloke/storytime-13B-GPTQ:gptq-4-32g-actorder_True
。
從命令行下載
推薦使用 huggingface-hub
Python 庫:
pip3 install huggingface-hub
將 main
分支下載到名為 storytime-13B-GPTQ
的文件夾:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
若要從不同分支下載,添加 --revision
參數:
mkdir storytime-13B-GPTQ
huggingface-cli download TheBloke/storytime-13B-GPTQ --revision gptq-4-32g-actorder_True --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
更高級的 huggingface-cli 下載用法
如果移除 --local-dir-use-symlinks False
參數,文件將存儲在中央 Huggingface 緩存目錄(Linux 上的默認位置是:~/.cache/huggingface
),並將符號鏈接添加到指定的 --local-dir
,指向它們在緩存中的實際位置。這允許中斷的下載繼續,並允許你快速將倉庫克隆到磁盤上的多個位置而無需再次觸發下載。缺點是文件隱藏在緩存文件夾中,很難知道磁盤空間的使用位置,並且在需要刪除下載的模型時難以清理。
緩存位置可以通過 HF_HOME
環境變量和/或 huggingface-cli
的 --cache-dir
參數更改。
有關使用 huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python 庫 -> 下載文件 -> 從 CLI 下載。
若要在高速連接(1Gbit/s 或更高)上加速下載,請安裝 hf_transfer
:
pip3 install hf_transfer
並將環境變量 HF_HUB_ENABLE_HF_TRANSFER
設置為 1
:
mkdir storytime-13B-GPTQ
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download TheBloke/storytime-13B-GPTQ --local-dir storytime-13B-GPTQ --local-dir-use-symlinks False
Windows 命令行用戶:可以在下載命令前運行 set HF_HUB_ENABLE_HF_TRANSFER=1
來設置環境變量。
使用 git
(不推薦)
使用 git
克隆特定分支,使用如下命令:
git clone --single-branch --branch gptq-4-32g-actorder_True https://huggingface.co/TheBloke/storytime-13B-GPTQ
請注意,強烈不建議對 HF 倉庫使用 Git。它比使用 huggingface-hub
慢得多,並且會使用兩倍的磁盤空間,因為它必須將模型文件存儲兩次(它將每個字節存儲在目標文件夾和 .git
文件夾中作為 blob)。
兼容性
提供的文件經測試可與 AutoGPTQ 一起使用,可通過 Transformers 或直接使用 AutoGPTQ。它們也應與 Occ4m's GPTQ-for-LLaMa fork 一起使用。
ExLlama 與 4 位的 Llama 模型兼容。請參閱上面的提供文件表瞭解每個文件的兼容性。
Huggingface Text Generation Inference (TGI) 與所有 GPTQ 模型兼容。
🔧 技術細節
該模型基於 Charles Goddard 的 Storytime 13B 進行 GPTQ 量化處理。通過提供多個量化參數選項,用戶可以根據自己的硬件和需求選擇最合適的參數,以平衡 VRAM 使用和量化精度。量化過程中使用了特定的校準數據集(如 wikitext)來提高量化精度。
📄 許可證
該模型使用 llama2 許可證。
Discord
如需進一步支持,或討論這些模型和人工智能相關內容,請加入:
感謝與貢獻方式
感謝 chirper.ai 團隊!
感謝來自 gpus.llm-utils.org 的 Clay!
很多人詢問是否可以貢獻。作者喜歡提供模型並幫助他人,希望能夠花更多時間做這些事情,以及開展新的項目,如微調/訓練。
如果您有能力並願意貢獻,將非常感激,這將幫助作者繼續提供更多模型,並開始新的人工智能項目。
捐贈者將在任何和所有 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間,以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Alicia Loh, Stephen Murray, K, Ajan Kanaga, RoA, Magnesian, Deo Leter, Olakabola, Eugene Pentland, zynix, Deep Realms, Raymond Fosdick, Elijah Stavena, Iucharbius, Erik Bjäreholt, Luis Javier Navarrete Lozano, Nicholas, theTransient, John Detwiler, alfie_i, knownsqashed, Mano Prime, Willem Michiel, Enrico Ros, LangChain4j, OG, Michael Dempsey, Pierre Kircher, Pedro Madruga, James Bentley, Thomas Belote, Luke @flexchar, Leonard Tan, Johann-Peter Hartmann, Illia Dulskyi, Fen Risland, Chadd, S_X, Jeff Scroggin, Ken Nordquist, Sean Connelly, Artur Olbinski, Swaroop Kallakuri, Jack West, Ai Maven, David Ziegler, Russ Johnson, transmissions 11, John Villwock, Alps Aficionado, Clay Pascal, Viktor Bowallius, Subspace Studios, Rainer Wilmers, Trenton Dambrowitz, vamX, Michael Levine, 준교 김, Brandon Frisco, Kalila, Trailburnt, Randy H, Talal Aujan, Nathan Dryer, Vadim, 阿明, ReadyPlayerEmma, Tiffany J. Kim, George Stoitzev, Spencer Kim, Jerry Meng, Gabriel Tamborski, Cory Kujawski, Jeffrey Morgan, Spiking Neurons AB, Edmond Seymore, Alexandros Triantafyllidis, Lone Striker, Cap'n Zoog, Nikolai Manek, danny, ya boyyy, Derek Yates, usrbinkat, Mandus, TL, Nathan LeClaire, subjectnull, Imad Khwaja, webtim, Raven Klaugh, Asp the Wyvern, Gabriel Puliatti, Caitlyn Gatomon, Joseph William Delisle, Jonathan Leane, Luke Pendergrass, SuperWojo, Sebastain Graf, Will Dee, Fred von Graf, Andrey, Dan Guido, Daniel P. Andersen, Nitin Borwankar, Elle, Vitor Caleffi, biorpg, jjj, NimbleBox.ai, Pieter, Matthew Berman, terasurfer, Michael Davis, Alex, Stanislav Ovsiannikov
感謝所有慷慨的贊助者和捐贈者!
再次感謝 a16z 的慷慨資助。
原始模型卡片:Charles Goddard 的 Storytime 13B
這是一個具有講故事傾向的聊天模型。
構建方式:
- 基於 Chronorctypus-Limarobormes
- 融合了 ReMM-v2.2-L2-13B
- 結合了 Llama-2-13B-Storywriter x 0.5
- 正在開發中的講故事 LORA
該模型能很好地響應 Alpaca 提示格式。



