模型概述
模型特點
模型能力
使用案例
🚀 Nethena 20B - GPTQ
Nethena 20B - GPTQ 是一個經過量化處理的模型,包含多種 GPTQ 參數排列的模型文件,適用於不同的硬件和需求,可用於 GPU 推理和 CPU+GPU 推理。
項目信息
屬性 | 詳情 |
---|---|
模型創建者 | NeverSleep |
原始模型 | Nethena 20B |
模型類型 | llama |
許可證 | cc-by-nc-4.0 |
提示模板 | Alpaca 格式,具體如下:<br>Below is an instruction that describes a task. Write a response that appropriately completes the request.<br><br>### Instruction:<br>{prompt}<br><br>### Response:<br><br> |
量化者 | TheBloke |
項目展示

TheBloke 的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助
🚀 快速開始
本項目提供了多種不同量化參數的 GPTQ 模型文件,可根據自身硬件和需求進行選擇。以下是一些使用指南:
- 已知兼容的客戶端/服務器:
✨ 主要特性
- 提供多種 GPTQ 參數排列的模型文件,可根據硬件和需求選擇最合適的量化模型。
- 每個單獨的量化模型位於不同的分支,方便用戶獲取。
- 支持多種推理服務器和 Web UI,具有良好的兼容性。
📦 安裝指南
在 text-generation-webui 中下載
- 從
main
分支下載:在“下載模型”框中輸入TheBloke/Nethena-20B-GPTQ
。 - 從其他分支下載:在下載名稱末尾添加
:branchname
,例如TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
。
從命令行下載
推薦使用 huggingface-hub
Python 庫:
pip3 install huggingface-hub
- 下載
main
分支到名為Nethena-20B-GPTQ
的文件夾:
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
- 從不同分支下載,添加
--revision
參數:
mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False
💻 使用示例
在 text-generation-webui 中使用
- 點擊“模型”選項卡。
- 在“下載自定義模型或 LoRA”中輸入
TheBloke/Nethena-20B-GPTQ
。- 若從特定分支下載,輸入如
TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True
。
- 若從特定分支下載,輸入如
- 點擊“下載”。
- 下載完成後顯示“完成”。
- 在左上角點擊“模型”旁邊的刷新圖標。
- 在“模型”下拉菜單中選擇剛下載的模型:
Nethena-20B-GPTQ
。 - 模型將自動加載,即可使用。
- 若需要自定義設置,設置後點擊右上角的“保存此模型的設置”,然後點擊“重新加載模型”。
- 注意:無需手動設置 GPTQ 參數,這些參數會從
quantize_config.json
文件中自動設置。
- 注意:無需手動設置 GPTQ 參數,這些參數會從
- 準備好後,點擊“文本生成”選項卡,輸入提示即可開始。
從 Python 代碼使用
安裝必要的包
需要:Transformers 4.33.0 或更高版本,Optimum 1.12.0 或更高版本,以及 AutoGPTQ 0.4.2 或更高版本。
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 若使用 CUDA 11.7,使用 cu117
若使用預構建的輪子安裝 AutoGPTQ 有問題,可從源代碼安裝:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
使用代碼示例
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Nethena-20B-GPTQ"
# 若使用不同分支,更改 revision
# 例如:revision="gptq-4bit-128g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
📚 詳細文檔
可用的倉庫
- 用於 GPU 推理的 AWQ 模型
- 用於 GPU 推理的 GPTQ 模型,具有多種量化參數選項
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- NeverSleep 原始未量化的 fp16 格式 PyTorch 模型,用於 GPU 推理和進一步轉換
提供的文件和 GPTQ 參數
提供多種量化參數,可根據硬件和需求選擇。每個單獨的量化模型位於不同的分支,以下是獲取不同分支的說明。大多數 GPTQ 文件使用 AutoGPTQ 製作,Mistral 模型目前使用 Transformers 製作。
GPTQ 參數說明
- 位(Bits):量化模型的位大小。 - 組大小(GS):GPTQ 組大小。較高的數字使用較少的 VRAM,但量化精度較低。“None” 是最低可能值。 - 激活順序(Act Order):真或假。也稱為 `desc_act`。真會導致更好的量化精度。一些 GPTQ 客戶端在使用激活順序加組大小的模型時遇到過問題,但現在一般已解決。 - 阻尼百分比(Damp %):影響量化樣本處理的 GPTQ 參數。默認值為 0.01,但 0.1 會導致稍好的精度。 - GPTQ 數據集:量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。注意,GPTQ 校準數據集與訓練模型使用的數據集不同,請參考原始模型倉庫瞭解訓練數據集的詳細信息。 - 序列長度(Sequence Length):量化期間使用的數據集序列長度。理想情況下,這與模型序列長度相同。對於一些非常長序列的模型(16K+),可能需要使用較低的序列長度。注意,較低的序列長度不會限制量化模型的序列長度,它隻影響較長推理序列的量化精度。 - ExLlama 兼容性:此文件是否可以使用 ExLlama 加載,目前 ExLlama 僅支持 4 位的 Llama 和 Mistral 模型。分支 | 位 | 組大小 | 激活順序 | 阻尼百分比 | GPTQ 數據集 | 序列長度 | 大小 | ExLlama 兼容性 | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | None | 是 | 0.1 | wikitext | 4096 | 10.52 GB | 是 | 4 位,有激活順序。無組大小,以降低 VRAM 需求。 |
gptq-4bit-128g-actorder_True | 4 | 128 | 是 | 0.1 | wikitext | 4096 | 10.89 GB | 是 | 4 位,有激活順序和 128g 組大小。比 64g 使用更少的 VRAM,但精度稍低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.1 | wikitext | 4096 | 12.04 GB | 是 | 4 位,有激活順序和 32g 組大小。提供最高可能的推理質量,使用最大的 VRAM。 |
gptq-3bit-128g-actorder_True | 3 | 128 | 是 | 0.1 | wikitext | 4096 | 8.41 GB | 否 | 3 位,有 128g 組大小和激活順序。比 128g-False 質量更高。 |
gptq-8bit--1g-actorder_True | 8 | None | 是 | 0.1 | wikitext | 4096 | 20.35 GB | 否 | 8 位,有激活順序。無組大小,以降低 VRAM 需求。 |
gptq-3bit-32g-actorder_True | 3 | 32 | 是 | 0.1 | wikitext | 4096 | 9.51 GB | 否 | 3 位,有 64g 組大小和激活順序。最高質量的 3 位選項。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.1 | wikitext | 4096 | 20.80 GB | 否 | 8 位,有 128g 組大小以提高推理質量,有激活順序以提高精度。 |
🔧 技術細節
這些文件使用 Massed Compute 提供的硬件進行量化。
📄 許可證
源模型的創建者將其許可證列為 cc-by-nc-4.0
,因此此量化版本使用相同的許可證。由於此模型基於 Llama 2,它也受 Meta Llama 2 許可證條款的約束,並且額外包含了該許可證文件。因此,應認為該模型聲稱同時受這兩種許可證的約束。我聯繫了 Hugging Face 以澄清雙重許可問題,但他們尚未有官方立場。如果情況發生變化,或者 Meta 對此情況提供任何反饋,我將相應更新此部分。
在此期間,有關許可證的任何問題,特別是這兩種許可證如何相互作用的問題,應直接諮詢原始模型倉庫:NeverSleep 的 Nethena 20B。
其他信息
Discord
如需進一步支持,以及討論這些模型和一般人工智能,請加入: TheBloke AI 的 Discord 服務器
感謝與貢獻方式
感謝 chirper.ai 團隊!感謝 gpus.llm-utils.org 的 Clay!
很多人詢問是否可以貢獻。我喜歡提供模型並幫助他人,希望能夠花更多時間做這件事,並擴展到新的項目,如微調/訓練。
如果您有能力並願意貢獻,將不勝感激,這將幫助我繼續提供更多模型,並開始新的人工智能項目。
捐贈者將在任何和所有人工智能/大語言模型/模型問題和請求上獲得優先支持,訪問私人 Discord 房間,以及其他福利。
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon 特別提及:Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius
感謝所有慷慨的贊助者和捐贈者!再次感謝 a16z 的慷慨資助。
原始模型卡片:NeverSleep 的 Nethena 20B
Nethena-20B 模型,使用 Alpaca 格式,適用於角色扮演(RP)、情感角色扮演(ERP)和一般任務。
如果我們將所有最佳模型結合起來會怎樣?這就是答案:Echidna v0.3 + Athena v3 + Nete
該模型還有 13B 版本,可在此查看:Nethena 13B
描述
此倉庫包含 Nethena-20B 的 fp16 文件。
評分
注意:我們已獲得所有用戶上傳評分的許可,不會未經詢問就截取隨機評論並放在這裡!目前尚無評分。如果您希望您的評分顯示在這裡,請在 Discord 上給我們發送消息,我們將在此處上傳截圖。Discord 名稱為 “ikaridev” 和 “undi”。
使用的模型和 LoRA 及配方
- NeverSleep/Echidna-13b-v0.3
- IkariDev/Athena-v3
- Undi95/Nete-13B
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
其他信息
- Undi:如果您想支持我,可以 點擊此處。
- IkariDev:請訪問我的 復古/新城市風格網站。



