Nethena-20B-GPTQ開源大語言模型 - 免費實現角色扮演與情感交互

首頁

Nethena 20B GPTQ

由TheBloke開發

Nethena-20B是一個由NeverSleep開發的20B參數大語言模型，適用於角色扮演、情感交互及一般用途。

大型語言模型

Transformers

#角色扮演優化 #多模型融合 #長文本生成

下載量 29

發布時間 : 10/30/2023

模型概述

Nethena-20B是Echidna v0.3、Athena v3和Nete模型的結合體，旨在提供高質量的文本生成能力，特別適合角色扮演和情感交互場景。

模型特點

多模型融合

結合了Echidna、Athena和Nete三個模型的優勢，提供更全面的文本生成能力。

角色扮演優化

特別適合角色扮演和情感交互場景，能夠生成富有情感的回應。

Alpaca提示模板

使用Alpaca格式的提示模板，便於指令跟隨和任務完成。

模型能力

文本生成

角色扮演

情感交互

指令跟隨

使用案例

娛樂

角色扮演遊戲

用於生成遊戲中的角色對話和情節發展。

提供沉浸式的角色扮演體驗。

情感交互

情感支持聊天

生成富有同情心和理解力的回應，用於情感支持場景。

幫助用戶獲得情感上的安慰和支持。

🚀 Nethena 20B - GPTQ

Nethena 20B - GPTQ 是一個經過量化處理的模型，包含多種 GPTQ 參數排列的模型文件，適用於不同的硬件和需求，可用於 GPU 推理和 CPU+GPU 推理。

項目信息

屬性	詳情
模型創建者	NeverSleep
原始模型	Nethena 20B
模型類型	llama
許可證	cc-by-nc-4.0
提示模板	Alpaca 格式，具體如下： `<br>Below is an instruction that describes a task. Write a response that appropriately completes the request.<br><br>### Instruction:<br>{prompt}<br><br>### Response:<br><br>`
量化者	TheBloke

項目展示

交流與支持：TheBloke 的 Discord 服務器

想要貢獻？TheBloke 的 Patreon 頁面

TheBloke 的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助

🚀 快速開始

本項目提供了多種不同量化參數的 GPTQ 模型文件，可根據自身硬件和需求進行選擇。以下是一些使用指南：

已知兼容的客戶端/服務器：

✨ 主要特性

提供多種 GPTQ 參數排列的模型文件，可根據硬件和需求選擇最合適的量化模型。
每個單獨的量化模型位於不同的分支，方便用戶獲取。
支持多種推理服務器和 Web UI，具有良好的兼容性。

📦 安裝指南

在 text-generation-webui 中下載

從 main 分支下載：在“下載模型”框中輸入 TheBloke/Nethena-20B-GPTQ。
從其他分支下載：在下載名稱末尾添加 :branchname，例如 TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True。

從命令行下載

推薦使用 huggingface-hub Python 庫：

pip3 install huggingface-hub

下載 main 分支到名為 Nethena-20B-GPTQ 的文件夾：

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

從不同分支下載，添加 --revision 參數：

mkdir Nethena-20B-GPTQ
huggingface-cli download TheBloke/Nethena-20B-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir Nethena-20B-GPTQ --local-dir-use-symlinks False

💻 使用示例

在 text-generation-webui 中使用

點擊“模型”選項卡。
在“下載自定義模型或 LoRA”中輸入 TheBloke/Nethena-20B-GPTQ。
- 若從特定分支下載，輸入如 TheBloke/Nethena-20B-GPTQ:gptq-4bit-128g-actorder_True。
點擊“下載”。
下載完成後顯示“完成”。
在左上角點擊“模型”旁邊的刷新圖標。
在“模型”下拉菜單中選擇剛下載的模型：Nethena-20B-GPTQ。
模型將自動加載，即可使用。
若需要自定義設置，設置後點擊右上角的“保存此模型的設置”，然後點擊“重新加載模型”。
- 注意：無需手動設置 GPTQ 參數，這些參數會從 quantize_config.json 文件中自動設置。
準備好後，點擊“文本生成”選項卡，輸入提示即可開始。

從 Python 代碼使用

安裝必要的包

需要：Transformers 4.33.0 或更高版本，Optimum 1.12.0 或更高版本，以及 AutoGPTQ 0.4.2 或更高版本。

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用 CUDA 11.7，使用 cu117

若使用預構建的輪子安裝 AutoGPTQ 有問題，可從源代碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代碼示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Nethena-20B-GPTQ"
# 若使用不同分支，更改 revision
# 例如：revision="gptq-4bit-128g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

📚 詳細文檔

可用的倉庫

提供的文件和 GPTQ 參數

提供多種量化參數，可根據硬件和需求選擇。每個單獨的量化模型位於不同的分支，以下是獲取不同分支的說明。大多數 GPTQ 文件使用 AutoGPTQ 製作，Mistral 模型目前使用 Transformers 製作。

GPTQ 參數說明

- 位（Bits）：量化模型的位大小。 - 組大小（GS）：GPTQ 組大小。較高的數字使用較少的 VRAM，但量化精度較低。“None” 是最低可能值。 - 激活順序（Act Order）：真或假。也稱為 `desc_act`。真會導致更好的量化精度。一些 GPTQ 客戶端在使用激活順序加組大小的模型時遇到過問題，但現在一般已解決。 - 阻尼百分比（Damp %）：影響量化樣本處理的 GPTQ 參數。默認值為 0.01，但 0.1 會導致稍好的精度。 - GPTQ 數據集：量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。注意，GPTQ 校準數據集與訓練模型使用的數據集不同，請參考原始模型倉庫瞭解訓練數據集的詳細信息。 - 序列長度（Sequence Length）：量化期間使用的數據集序列長度。理想情況下，這與模型序列長度相同。對於一些非常長序列的模型（16K+），可能需要使用較低的序列長度。注意，較低的序列長度不會限制量化模型的序列長度，它隻影響較長推理序列的量化精度。 - ExLlama 兼容性：此文件是否可以使用 ExLlama 加載，目前 ExLlama 僅支持 4 位的 Llama 和 Mistral 模型。

分支	位	組大小	激活順序	阻尼百分比	GPTQ 數據集	序列長度	大小	ExLlama 兼容性	描述
main	4	None	是	0.1	wikitext	4096	10.52 GB	是	4 位，有激活順序。無組大小，以降低 VRAM 需求。
gptq-4bit-128g-actorder_True	4	128	是	0.1	wikitext	4096	10.89 GB	是	4 位，有激活順序和 128g 組大小。比 64g 使用更少的 VRAM，但精度稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	12.04 GB	是	4 位，有激活順序和 32g 組大小。提供最高可能的推理質量，使用最大的 VRAM。
gptq-3bit-128g-actorder_True	3	128	是	0.1	wikitext	4096	8.41 GB	否	3 位，有 128g 組大小和激活順序。比 128g-False 質量更高。
gptq-8bit--1g-actorder_True	8	None	是	0.1	wikitext	4096	20.35 GB	否	8 位，有激活順序。無組大小，以降低 VRAM 需求。
gptq-3bit-32g-actorder_True	3	32	是	0.1	wikitext	4096	9.51 GB	否	3 位，有 64g 組大小和激活順序。最高質量的 3 位選項。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	20.80 GB	否	8 位，有 128g 組大小以提高推理質量，有激活順序以提高精度。

🔧 技術細節

這些文件使用 Massed Compute 提供的硬件進行量化。

📄 許可證

源模型的創建者將其許可證列為 cc-by-nc-4.0，因此此量化版本使用相同的許可證。由於此模型基於 Llama 2，它也受 Meta Llama 2 許可證條款的約束，並且額外包含了該許可證文件。因此，應認為該模型聲稱同時受這兩種許可證的約束。我聯繫了 Hugging Face 以澄清雙重許可問題，但他們尚未有官方立場。如果情況發生變化，或者 Meta 對此情況提供任何反饋，我將相應更新此部分。

在此期間，有關許可證的任何問題，特別是這兩種許可證如何相互作用的問題，應直接諮詢原始模型倉庫：NeverSleep 的 Nethena 20B。

其他信息

Discord

如需進一步支持，以及討論這些模型和一般人工智能，請加入： TheBloke AI 的 Discord 服務器

感謝與貢獻方式

感謝 chirper.ai 團隊！感謝 gpus.llm-utils.org 的 Clay！

很多人詢問是否可以貢獻。我喜歡提供模型並幫助他人，希望能夠花更多時間做這件事，並擴展到新的項目，如微調/訓練。

如果您有能力並願意貢獻，將不勝感激，這將幫助我繼續提供更多模型，並開始新的人工智能項目。

捐贈者將在任何和所有人工智能/大語言模型/模型問題和請求上獲得優先支持，訪問私人 Discord 房間，以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon 特別提及：Brandon Frisco, LangChain4j, Spiking Neurons AB, transmissions 11, Joseph William Delisle, Nitin Borwankar, Willem Michiel, Michael Dempsey, vamX, Jeffrey Morgan, zynix, jjj, Omer Bin Jawed, Sean Connelly, jinyuan sun, Jeromy Smith, Shadi, Pawan Osman, Chadd, Elijah Stavena, Illia Dulskyi, Sebastain Graf, Stephen Murray, terasurfer, Edmond Seymore, Celu Ramasamy, Mandus, Alex, biorpg, Ajan Kanaga, Clay Pascal, Raven Klaugh, 阿明, K, ya boyyy, usrbinkat, Alicia Loh, John Villwock, ReadyPlayerEmma, Chris Smitley, Cap'n Zoog, fincy, GodLy, S_X, sidney chen, Cory Kujawski, OG, Mano Prime, AzureBlack, Pieter, Kalila, Spencer Kim, Tom X Nguyen, Stanislav Ovsiannikov, Michael Levine, Andrey, Trailburnt, Vadim, Enrico Ros, Talal Aujan, Brandon Phillips, Jack West, Eugene Pentland, Michael Davis, Will Dee, webtim, Jonathan Leane, Alps Aficionado, Rooh Singh, Tiffany J. Kim, theTransient, Luke @flexchar, Elle, Caitlyn Gatomon, Ari Malik, subjectnull, Johann-Peter Hartmann, Trenton Dambrowitz, Imad Khwaja, Asp the Wyvern, Emad Mostaque, Rainer Wilmers, Alexandros Triantafyllidis, Nicholas, Pedro Madruga, SuperWojo, Harry Royden McLaughlin, James Bentley, Olakabola, David Ziegler, Ai Maven, Jeff Scroggin, Nikolai Manek, Deo Leter, Matthew Berman, Fen Risland, Ken Nordquist, Manuel Alberto Morcote, Luke Pendergrass, TL, Fred von Graf, Randy H, Dan Guido, NimbleBox.ai, Vitor Caleffi, Gabriel Tamborski, knownsqashed, Lone Striker, Erik Bjäreholt, John Detwiler, Leonard Tan, Iucharbius

感謝所有慷慨的贊助者和捐贈者！再次感謝 a16z 的慷慨資助。

原始模型卡片：NeverSleep 的 Nethena 20B

image/png

該模型是 IkariDev 和 Undi 的合作成果！

Nethena-20B 模型，使用 Alpaca 格式，適用於角色扮演（RP）、情感角色扮演（ERP）和一般任務。

如果我們將所有最佳模型結合起來會怎樣？這就是答案：Echidna v0.3 + Athena v3 + Nete

該模型還有 13B 版本，可在此查看：Nethena 13B

描述

此倉庫包含 Nethena-20B 的 fp16 文件。

評分

注意：我們已獲得所有用戶上傳評分的許可，不會未經詢問就截取隨機評論並放在這裡！目前尚無評分。如果您希望您的評分顯示在這裡，請在 Discord 上給我們發送消息，我們將在此處上傳截圖。Discord 名稱為 “ikaridev” 和 “undi”。

使用的模型和 LoRA 及配方

NeverSleep/Echidna-13b-v0.3
IkariDev/Athena-v3
Undi95/Nete-13B

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

其他信息

Undi：如果您想支持我，可以點擊此處。
IkariDev：請訪問我的復古/新城市風格網站。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫