Chronoboros-33B-GPTQ開源模型 - 靈活多變回答，滿足多樣化問答需求

首頁

Chronoboros 33B GPTQ

由TheBloke開發

Chronoboros 33B是Airoboros-33B-1.4和Chronos-33B的50/50平均權重合並模型，具有高度靈活性但回答方式變化較大。

大型語言模型

Transformers

開源協議:其他 #多任務混合模型 #高靈活性生成 #創意內容創作

下載量 84

發布時間 : 7/10/2023

模型概述

這是一個混合模型，結合了Airoboros和Chronos兩個33B參數模型的特點，能夠處理多種任務但輸出一致性較低。

模型特點

混合模型優勢

結合了兩個不同33B參數模型的優勢，提供更廣泛的能力覆蓋

高度靈活性

能夠適應多種不同類型的任務和提示

多樣化輸出

對相同提示可能產生不同的回答，適合需要創意輸出的場景

模型能力

文本生成

指令跟隨

創意寫作

問答系統

使用案例

創意內容生成

故事創作

生成創意故事和小說內容

能產生多樣化的故事發展

對話系統

開放域對話

進行開放式對話交流

回答具有多樣性但可能不一致

🚀 Chronoboros 33B - GPTQ

Chronoboros 33B - GPTQ 是一個經過量化處理的模型，本倉庫包含了該模型的 GPTQ 格式文件。它基於 Henk717 的 Chronoboros 33B 模型，提供了多種量化參數選項，以滿足不同硬件和需求。

🚀 快速開始

從 Python 代碼使用此 GPTQ 模型

安裝必要的包

需要安裝：Transformers 4.32.0 或更高版本、Optimum 1.12.0 或更高版本，以及 AutoGPTQ 0.4.2 或更高版本。

pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 如果使用 CUDA 11.7，請使用 cu117

如果使用預構建的輪子安裝 AutoGPTQ 時遇到問題，可以從源代碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .

僅適用於 CodeLlama 模型：必須使用 Transformers 4.33.0 或更高版本

如果在閱讀本文時 4.33.0 尚未發佈，則需要從源代碼安裝 Transformers：

pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git

使用以下代碼

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/Chronoboros-33B-GPTQ"
# 要使用不同的分支，請更改 revision
# 例如：revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

在 text-generation-webui 中輕鬆下載和使用此模型

請確保使用的是 text-generation-webui 的最新版本。強烈建議使用 text-generation-webui 的一鍵安裝程序，除非你確定自己知道如何手動安裝。

點擊 Model tab。
在 Download custom model or LoRA 下，輸入 TheBloke/Chronoboros-33B-GPTQ。
- 若要從特定分支下載，例如輸入 TheBloke/Chronoboros-33B-GPTQ:main。
- 請參閱上面的“提供的文件”以獲取每個選項的分支列表。
點擊 Download。
模型將開始下載。下載完成後會顯示“Done”。
在左上角，點擊 Model 旁邊的刷新圖標。
在 Model 下拉菜單中，選擇你剛剛下載的模型：Chronoboros-33B-GPTQ。
模型將自動加載，現在可以使用了！
如果你需要任何自定義設置，請進行設置，然後點擊右上角的 Save settings for this model，接著點擊 Reload the Model。
- 注意，你不再需要也不應該手動設置 GPTQ 參數。這些參數會從文件 quantize_config.json 中自動設置。
準備好後，點擊 Text Generation tab 並輸入提示以開始！

✨ 主要特性

本倉庫包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。
提供了多種 GPTQ 參數排列，可根據硬件和需求選擇最佳參數。
支持多種推理方式，包括 GPU 推理和 CPU+GPU 推理。

📦 安裝指南

從分支下載

在 text-generation-webui 中，可以在下載名稱末尾添加 :branch，例如 TheBloke/Chronoboros-33B-GPTQ:main。
使用 Git 時，可以使用以下命令克隆分支：

git clone --single-branch --branch main https://huggingface.co/TheBloke/Chronoboros-33B-GPTQ

在 Python Transformers 代碼中，分支是 revision 參數。

📚 詳細文檔

描述

本倉庫包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。提供了多種 GPTQ 參數排列，具體選項、參數以及創建它們所使用的軟件詳情，請參閱下面的“提供的文件”。

可用的倉庫

提示模板：Alpaca

Below is an instruction that describes a task. Write a response that appropriately completes the request.

### Instruction:
{prompt}

### Response:

提供的文件和 GPTQ 參數

提供了多種量化參數，以便你根據硬件和需求選擇最佳參數。每個單獨的量化版本位於不同的分支中。以下是從不同分支獲取文件的說明。所有最近的 GPTQ 文件都是使用 AutoGPTQ 創建的，非主分支中的所有文件都是使用 AutoGPTQ 創建的。main 分支中 2023 年 8 月之前上傳的文件是使用 GPTQ-for-LLaMa 創建的。

GPTQ 參數說明

Bits：量化模型的位大小。
GS：GPTQ 組大小。較高的數字使用較少的 VRAM，但量化精度較低。“None” 是最低可能值。
Act Order：真或假。也稱為 desc_act。真會導致更好的量化精度。一些 GPTQ 客戶端在使用 Act Order 加組大小的模型時遇到過問題，但現在這個問題通常已解決。
Damp %：一個影響量化樣本處理方式的 GPTQ 參數。默認值為 0.01，但 0.1 會導致稍好的精度。
GPTQ 數據集：用於量化的數據集。使用與模型訓練更合適的數據集可以提高量化精度。請注意，GPTQ 數據集與用於訓練模型的數據集不同 - 請參閱原始模型倉庫以獲取訓練數據集的詳細信息。
序列長度：用於量化的數據集序列的長度。理想情況下，這與模型序列長度相同。對於一些非常長序列的模型（16+K），可能需要使用較低的序列長度。請注意，較低的序列長度不會限制量化模型的序列長度。它只會影響較長推理序列的量化精度。
ExLlama 兼容性：此文件是否可以使用 ExLlama 加載，目前 ExLlama 僅支持 4 位的 Llama 模型。

分支	位	GS	Act Order	Damp %	GPTQ 數據集	序列長度	大小	ExLlama	描述
main	4	無	是	0.01	wikitext	2048	16.94 GB	是	4 位，帶有 Act Order。無組大小，以降低 VRAM 需求。
gptq-4bit-32g-actorder_True	4	32	是	0.01	wikitext	2048	19.44 GB	是	4 位，帶有 Act Order 和組大小 32g。提供最高可能的推理質量，但使用最大的 VRAM。
gptq-4bit-64g-actorder_True	4	64	是	0.01	wikitext	2048	18.18 GB	是	4 位，帶有 Act Order 和組大小 64g。使用的 VRAM 比 32g 少，但精度稍低。
gptq-4bit-128g-actorder_True	4	128	是	0.01	wikitext	2048	17.55 GB	是	4 位，帶有 Act Order 和組大小 128g。使用的 VRAM 比 64g 更少，但精度稍低。
gptq-8bit--1g-actorder_True	8	無	是	0.01	wikitext	2048	32.99 GB	否	8 位，帶有 Act Order。無組大小，以降低 VRAM 需求。
gptq-8bit-128g-actorder_False	8	128	否	0.01	wikitext	2048	33.73 GB	否	8 位，帶有組大小 128g 以提高推理質量，不使用 Act Order 以提高 AutoGPTQ 速度。
gptq-3bit--1g-actorder_True	3	無	是	0.01	wikitext	2048	12.92 GB	否	3 位，帶有 Act Order 且無組大小。最低的 VRAM 需求。質量可能比 3 位 128g 低。
gptq-3bit-128g-actorder_False	3	128	否	0.01	wikitext	2048	13.51 GB	否	3 位，帶有組大小 128g 但無 Act Order。VRAM 需求比 3 位 None 稍高。

兼容性

提供的文件經過測試，可與 AutoGPTQ 一起使用，包括通過 Transformers 和直接使用 AutoGPTQ。它們也應該與 Occ4m 的 GPTQ-for-LLaMa 分支一起使用。 ExLlama 與 4 位的 Llama 模型兼容。請參閱上面的“提供的文件”表以獲取每個文件的兼容性信息。 Huggingface 文本生成推理 (TGI) 與所有 GPTQ 模型兼容。

原始模型卡片：Henk717 的 Chronoboros 33B

此模型是 Airoboros-33B-1.4 和 Chronos-33B 之間 50/50 平均權重合並的結果。經過長時間測試，我們得出結論，雖然此合併模型非常靈活，能夠完成許多不同的任務，但它的回答變化太大，不夠可靠。因此，該模型需要一些運氣才能獲得好的結果，因此不建議尋求一致體驗的人或對基於預期的成癮敏感的人使用。如果你想要此模型的更穩定改進版本，請查看我的 Airochronos-33B 合併模型。

📄 許可證

許可證信息：其他

🔗 相關鏈接

模型創建者：Henky!!
原始模型：Chronoboros 33B
Discord 服務器：TheBloke AI 的 Discord 服務器
Patreon：https://patreon.com/TheBlokeAI
Ko-Fi：https://ko-fi.com/TheBlokeAI

🙏 感謝與貢獻

感謝 chirper.ai 團隊！感謝來自 gpus.llm-utils.org 的 Clay！很多人問是否可以貢獻。我喜歡提供模型並幫助他人，也希望能夠花更多時間做這些事情，以及開展新的項目，如微調/訓練。如果你有能力並願意貢獻，將不勝感激，這將幫助我繼續提供更多模型，並開始新的 AI 項目。捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間，以及其他福利。

特別感謝：Aemon Algiz。

Patreon 特別提及：Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov

感謝所有慷慨的贊助者和捐贈者！再次感謝 a16z 的慷慨資助。