Athnete-13B-GPTQ開源大語言模型 - 支持角色扮演、情感扮演及通用場景

首頁

Athnete 13B GPTQ

由TheBloke開發

Athnete是一個基於Alpaca格式的13B參數大語言模型，適用於角色扮演、情感角色扮演及一般用途。

大型語言模型

Transformers

#角色扮演優化 #情感交互 #Alpaca格式

下載量 24

發布時間 : 10/29/2023

模型概述

Athnete模型是一個多功能的大語言模型，特別適合角色扮演和情感交互場景，同時也具備良好的通用任務處理能力。

模型特點

角色扮演優化

特別針對角色扮演和情感交互場景進行了優化

Alpaca格式支持

使用標準的Alpaca指令格式，便於集成和使用

高性能

在13B參數規模下提供出色的生成質量

模型能力

文本生成

對話系統

角色扮演

情感交互

指令跟隨

使用案例

娛樂

角色扮演遊戲

作為遊戲中的NPC進行自然對話

提供沉浸式的角色扮演體驗

創意寫作

故事生成

根據提示生成連貫的故事情節

輔助作家進行創意構思

🚀 Athnete 13B - GPTQ

本項目提供了IkariDev的Athnete 13B模型的GPTQ量化版本，支持多種推理方式，滿足不同硬件和需求。

🚀 快速開始

本倉庫包含了IkariDev的Athnete 13B的GPTQ模型文件。提供了多種GPTQ參數排列組合，詳情請見下方的“提供的文件和GPTQ參數”部分。

這些文件是在Massed Compute提供的硬件上進行量化的。

✨ 主要特性

多版本支持：提供了AWQ、GPTQ、GGUF等多種量化版本，適用於不同的推理場景。
參數可選：每個獨立的量化版本位於不同的分支，用戶可以根據自己的硬件和需求選擇最佳的量化參數。
廣泛兼容：已知可在多個推理服務器和Web UI中使用，如text-generation-webui、KobaldAI United等。

📦 安裝指南

在text-generation-webui中下載

從main分支下載：在“下載模型”框中輸入TheBloke/Athnete-13B-GPTQ。
從其他分支下載：在下載名稱末尾添加:branchname，例如TheBloke/Athnete-13B-GPTQ:gptq-4bit-32g-actorder_True。

從命令行下載

推薦使用huggingface-hub Python庫：

pip3 install huggingface-hub

下載main分支到名為Athnete-13B-GPTQ的文件夾：

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

從不同分支下載：添加--revision參數，例如：

mkdir Athnete-13B-GPTQ
huggingface-cli download TheBloke/Athnete-13B-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir Athnete-13B-GPTQ --local-dir-use-symlinks False

使用`git`下載（不推薦）

使用以下命令克隆特定分支：

git clone --single-branch --branch gptq-4bit-32g-actorder_True https://huggingface.co/TheBloke/Athnete-13B-GPTQ

💻 使用示例

在text-generation-webui中使用

確保使用的是text-generation-webui的最新版本。
強烈建議使用一鍵安裝程序，除非你確定知道如何手動安裝。
點擊“模型”選項卡。
在“下載自定義模型或LoRA”下，輸入TheBloke/Athnete-13B-GPTQ。
- 若要從特定分支下載，可輸入例如TheBloke/Athnete-13B-GPTQ:gptq-4bit-32g-actorder_True。
- 具體分支列表見“提供的文件和GPTQ參數”部分。
點擊“下載”。
模型開始下載，完成後會顯示“完成”。
在左上角，點擊“模型”旁邊的刷新圖標。
在“模型”下拉菜單中，選擇剛下載的模型：Athnete-13B-GPTQ。
模型將自動加載，即可開始使用！
若需要自定義設置，設置完成後點擊“保存此模型的設置”，然後在右上角點擊“重新加載模型”。

從Python代碼中使用

安裝必要的包

需要安裝Transformers 4.33.0或更高版本、Optimum 1.12.0或更高版本，以及AutoGPTQ 0.4.2或更高版本：

pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 若使用CUDA 11.7，使用cu117

若使用預構建的輪子安裝AutoGPTQ時遇到問題，可從源代碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

使用代碼示例

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Athnete-13B-GPTQ"
# 若要使用不同分支，更改revision參數
# 例如：revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用transformers的pipeline進行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

從Text Generation Inference (TGI)中使用

推薦使用TGI版本1.1.0或更高版本，官方Docker容器為：ghcr.io/huggingface/text-generation-inference:1.1.0。

示例Docker參數

--model-id TheBloke/Athnete-13B-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

示例Python代碼

pip3 install huggingface-hub

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"Model output: {response}")

📚 詳細文檔

可用的倉庫

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

許可證

源模型的創建者將其許可證列為cc-by-nc-4.0，因此此量化版本也使用相同的許可證。

由於此模型基於Llama 2，它也受Meta Llama 2許可條款的約束，並且額外包含了相關的許可文件。因此，應認為該模型聲稱同時受這兩個許可證的約束。我已聯繫Hugging Face以澄清雙重許可問題，但他們目前尚未有官方立場。如果情況發生變化，或者Meta對此情況提供任何反饋，我將相應更新此部分內容。

在此期間，任何關於許可的問題，特別是這兩個許可證可能如何相互作用的問題，應直接諮詢原始模型倉庫：IkariDev的Athnete 13B。

已知兼容的客戶端/服務器

這些GPTQ模型已知可在以下推理服務器/Web UI中使用：

這可能不是完整的列表，如果您知道其他兼容的客戶端/服務器，請告知！

提供的文件和GPTQ參數

提供了多個量化參數，以便您根據自己的硬件和需求選擇最佳參數。

每個獨立的量化版本位於不同的分支。有關從不同分支獲取文件的說明，請見下文。

大多數GPTQ文件使用AutoGPTQ製作，Mistral模型目前使用Transformers製作。

GPTQ參數說明

比特數（Bits）：量化模型的位大小。
分組大小（GS）：GPTQ分組大小。較高的數值使用較少的VRAM，但量化精度較低。“None”是最低可能值。
激活順序（Act Order）：真或假。也稱為desc_act。設置為真可獲得更好的量化精度。一些GPTQ客戶端在使用激活順序和分組大小的模型時遇到過問題，但現在通常已解決。
阻尼百分比（Damp %）：一個影響量化樣本處理方式的GPTQ參數。默認值為0.01，但0.1可獲得稍高的精度。
GPTQ數據集：量化期間使用的校準數據集。使用與模型訓練更匹配的數據集可以提高量化精度。請注意，GPTQ校準數據集與訓練模型使用的數據集不同 - 請參考原始模型倉庫瞭解訓練數據集的詳細信息。
序列長度（Sequence Length）：量化期間使用的數據集序列長度。理想情況下，此值應與模型序列長度相同。對於一些非常長序列的模型（16K以上），可能需要使用較低的序列長度。請注意，較低的序列長度不會限制量化模型的序列長度，它僅影響較長推理序列的量化精度。
ExLlama兼容性：此文件是否可以使用ExLlama加載，目前ExLlama僅支持4位的Llama和Mistral模型。

分支	比特數	分組大小	激活順序	阻尼百分比	GPTQ數據集	序列長度	大小	ExLlama兼容性	描述
main	4	128	是	0.1	wikitext	4096	7.26 GB	是	4位，帶有激活順序和分組大小128g。比64g使用更少的VRAM，但精度稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	8.00 GB	是	4位，帶有激活順序和分組大小32g。可獲得最高的推理質量，但使用最大的VRAM。
gptq-8bit--1g-actorder_True	8	無	是	0.1	wikitext	4096	13.36 GB	否	8位，帶有激活順序。無分組大小，以降低VRAM需求。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	13.65 GB	否	8位，分組大小128g以提高推理質量，帶有激活順序以獲得更高的精度。
gptq-8bit-32g-actorder_True	8	32	是	0.1	wikitext	4096	14.54 GB	否	8位，分組大小32g和激活順序以獲得最大的推理質量。
gptq-4bit-64g-actorder_True	4	64	是	0.1	wikitext	4096	7.51 GB	是	4位，帶有激活順序和分組大小64g。比32g使用更少的VRAM，但精度稍低。

兼容性

提供的文件已測試可與Transformers一起使用。對於非Mistral模型，也可以直接使用AutoGPTQ。

ExLlama與4位的Llama和Mistral模型兼容。請參閱上方的“提供的文件”表格，瞭解每個文件的兼容性。

有關客戶端/服務器列表，請參閱“已知兼容的客戶端/服務器”部分。

📄 許可證

本項目遵循cc-by-nc-4.0許可證，同時由於基於Llama 2，也受Meta Llama 2許可條款的約束。

🔗 相關鏈接

Discord

如需進一步支持，以及討論這些模型和人工智能相關話題，請加入我們的： TheBloke AI的Discord服務器

感謝與貢獻方式

感謝chirper.ai團隊！感謝來自gpus.llm-utils.org的Clay！

很多人詢問是否可以進行貢獻。我喜歡提供模型並幫助他人，也希望能夠花更多時間做這些事情，同時拓展到新的項目，如微調/訓練。

如果您有能力且願意貢獻，我將非常感激，這將幫助我繼續提供更多模型，並開展新的人工智能項目。

捐贈者將在所有AI/LLM/模型問題和請求上獲得優先支持，訪問私人Discord房間，以及其他福利。

Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

特別感謝：Aemon Algiz。

Patreon特別提及：Brandon Frisco、LangChain4j、Spiking Neurons AB、transmissions 11、Joseph William Delisle、Nitin Borwankar、Willem Michiel、Michael Dempsey、vamX、Jeffrey Morgan、zynix、jjj、Omer Bin Jawed、Sean Connelly、jinyuan sun、Jeromy Smith、Shadi、Pawan Osman、Chadd、Elijah Stavena、Illia Dulskyi、Sebastain Graf、Stephen Murray、terasurfer、Edmond Seymore、Celu Ramasamy、Mandus、Alex、biorpg、Ajan Kanaga、Clay Pascal、Raven Klaugh、阿明、K、ya boyyy、usrbinkat、Alicia Loh、John Villwock、ReadyPlayerEmma、Chris Smitley、Cap'n Zoog、fincy、GodLy、S_X、sidney chen、Cory Kujawski、OG、Mano Prime、AzureBlack、Pieter、Kalila、Spencer Kim、Tom X Nguyen、Stanislav Ovsiannikov、Michael Levine、Andrey、Trailburnt、Vadim、Enrico Ros、Talal Aujan、Brandon Phillips、Jack West、Eugene Pentland、Michael Davis、Will Dee、webtim、Jonathan Leane、Alps Aficionado、Rooh Singh、Tiffany J. Kim、theTransient、Luke @flexchar、Elle、Caitlyn Gatomon、Ari Malik、subjectnull、Johann-Peter Hartmann、Trenton Dambrowitz、Imad Khwaja、Asp the Wyvern、Emad Mostaque、Rainer Wilmers、Alexandros Triantafyllidis、Nicholas、Pedro Madruga、SuperWojo、Harry Royden McLaughlin、James Bentley、Olakabola、David Ziegler、Ai Maven、Jeff Scroggin、Nikolai Manek、Deo Leter、Matthew Berman、Fen Risland、Ken Nordquist、Manuel Alberto Morcote、Luke Pendergrass、TL、Fred von Graf、Randy H、Dan Guido、NimbleBox.ai、Vitor Caleffi、Gabriel Tamborski、knownsqashed、Lone Striker、Erik Bjäreholt、John Detwiler、Leonard Tan、Iucharbius

感謝所有慷慨的贊助者和捐贈者！再次感謝a16z的慷慨資助。

🔍 原始模型卡片：IkariDev的Athnete 13B

image/png

Athnete模型。使用Alpaca格式。適用於角色扮演（RP）、情感角色扮演（ERP）和一般任務。

儘管我製作的橫幅很糟糕，但這個模型實際上可能比原始的Athena v3更好。

描述

本倉庫包含Athnete的fp16文件。

模型和LoRA使用情況

IkariDev/Athena-v3
Undi95/Nete-13B

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

非常感謝Undi95進行合併（合併方案是我的想法，他進行了合併）。

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫

Athnete 13B GPTQ

模型概述

模型特點

模型能力

使用案例

🚀 Athnete 13B - GPTQ

🚀 快速開始

✨ 主要特性

📦 安裝指南

在text-generation-webui中下載

從命令行下載

使用git下載（不推薦）

💻 使用示例

在text-generation-webui中使用

從Python代碼中使用

安裝必要的包

使用代碼示例

從Text Generation Inference (TGI)中使用

示例Docker參數

示例Python代碼

📚 詳細文檔

可用的倉庫

提示模板：Alpaca

許可證

已知兼容的客戶端/服務器

提供的文件和GPTQ參數

兼容性

📄 許可證

🔗 相關鏈接

Discord

感謝與貢獻方式

🔍 原始模型卡片：IkariDev的Athnete 13B

描述

模型和LoRA使用情況

提示模板：Alpaca

使用`git`下載（不推薦）