模型概述
模型特點
模型能力
使用案例
🚀 Chronoboros 33B - GPTQ
Chronoboros 33B - GPTQ 是一個經過量化處理的模型,本倉庫包含了該模型的 GPTQ 格式文件。它基於 Henk717 的 Chronoboros 33B 模型,提供了多種量化參數選項,以滿足不同硬件和需求。
🚀 快速開始
從 Python 代碼使用此 GPTQ 模型
安裝必要的包
需要安裝:Transformers 4.32.0 或更高版本、Optimum 1.12.0 或更高版本,以及 AutoGPTQ 0.4.2 或更高版本。
pip3 install transformers>=4.32.0 optimum>=1.12.0
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 如果使用 CUDA 11.7,請使用 cu117
如果使用預構建的輪子安裝 AutoGPTQ 時遇到問題,可以從源代碼安裝:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
pip3 install .
僅適用於 CodeLlama 模型:必須使用 Transformers 4.33.0 或更高版本
如果在閱讀本文時 4.33.0 尚未發佈,則需要從源代碼安裝 Transformers:
pip3 uninstall -y transformers
pip3 install git+https://github.com/huggingface/transformers.git
使用以下代碼
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/Chronoboros-33B-GPTQ"
# 要使用不同的分支,請更改 revision
# 例如:revision="main"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用 transformers 的 pipeline 進行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
在 text-generation-webui 中輕鬆下載和使用此模型
請確保使用的是 text-generation-webui 的最新版本。強烈建議使用 text-generation-webui 的一鍵安裝程序,除非你確定自己知道如何手動安裝。
- 點擊 Model tab。
- 在 Download custom model or LoRA 下,輸入
TheBloke/Chronoboros-33B-GPTQ
。- 若要從特定分支下載,例如輸入
TheBloke/Chronoboros-33B-GPTQ:main
。 - 請參閱上面的“提供的文件”以獲取每個選項的分支列表。
- 若要從特定分支下載,例如輸入
- 點擊 Download。
- 模型將開始下載。下載完成後會顯示“Done”。
- 在左上角,點擊 Model 旁邊的刷新圖標。
- 在 Model 下拉菜單中,選擇你剛剛下載的模型:
Chronoboros-33B-GPTQ
。 - 模型將自動加載,現在可以使用了!
- 如果你需要任何自定義設置,請進行設置,然後點擊右上角的 Save settings for this model,接著點擊 Reload the Model。
- 注意,你不再需要也不應該手動設置 GPTQ 參數。這些參數會從文件
quantize_config.json
中自動設置。
- 注意,你不再需要也不應該手動設置 GPTQ 參數。這些參數會從文件
- 準備好後,點擊 Text Generation tab 並輸入提示以開始!
✨ 主要特性
- 本倉庫包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。
- 提供了多種 GPTQ 參數排列,可根據硬件和需求選擇最佳參數。
- 支持多種推理方式,包括 GPU 推理和 CPU+GPU 推理。
📦 安裝指南
從分支下載
- 在 text-generation-webui 中,可以在下載名稱末尾添加
:branch
,例如TheBloke/Chronoboros-33B-GPTQ:main
。 - 使用 Git 時,可以使用以下命令克隆分支:
git clone --single-branch --branch main https://huggingface.co/TheBloke/Chronoboros-33B-GPTQ
- 在 Python Transformers 代碼中,分支是
revision
參數。
📚 詳細文檔
描述
本倉庫包含了 Henk717 的 Chronoboros 33B 的 GPTQ 模型文件。提供了多種 GPTQ 參數排列,具體選項、參數以及創建它們所使用的軟件詳情,請參閱下面的“提供的文件”。
可用的倉庫
- 用於 GPU 推理的 AWQ 模型。
- 用於 GPU 推理的 GPTQ 模型,有多種量化參數選項。
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型。
- Henky!! 原始的未量化 fp16 模型(pytorch 格式),用於 GPU 推理和進一步轉換。
提示模板:Alpaca
Below is an instruction that describes a task. Write a response that appropriately completes the request.
### Instruction:
{prompt}
### Response:
提供的文件和 GPTQ 參數
提供了多種量化參數,以便你根據硬件和需求選擇最佳參數。每個單獨的量化版本位於不同的分支中。以下是從不同分支獲取文件的說明。
所有最近的 GPTQ 文件都是使用 AutoGPTQ 創建的,非主分支中的所有文件都是使用 AutoGPTQ 創建的。main
分支中 2023 年 8 月之前上傳的文件是使用 GPTQ-for-LLaMa 創建的。
GPTQ 參數說明
- Bits:量化模型的位大小。
- GS:GPTQ 組大小。較高的數字使用較少的 VRAM,但量化精度較低。“None” 是最低可能值。
- Act Order:真或假。也稱為
desc_act
。真會導致更好的量化精度。一些 GPTQ 客戶端在使用 Act Order 加組大小的模型時遇到過問題,但現在這個問題通常已解決。 - Damp %:一個影響量化樣本處理方式的 GPTQ 參數。默認值為 0.01,但 0.1 會導致稍好的精度。
- GPTQ 數據集:用於量化的數據集。使用與模型訓練更合適的數據集可以提高量化精度。請注意,GPTQ 數據集與用於訓練模型的數據集不同 - 請參閱原始模型倉庫以獲取訓練數據集的詳細信息。
- 序列長度:用於量化的數據集序列的長度。理想情況下,這與模型序列長度相同。對於一些非常長序列的模型(16+K),可能需要使用較低的序列長度。請注意,較低的序列長度不會限制量化模型的序列長度。它只會影響較長推理序列的量化精度。
- ExLlama 兼容性:此文件是否可以使用 ExLlama 加載,目前 ExLlama 僅支持 4 位的 Llama 模型。
分支 | 位 | GS | Act Order | Damp % | GPTQ 數據集 | 序列長度 | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 無 | 是 | 0.01 | wikitext | 2048 | 16.94 GB | 是 | 4 位,帶有 Act Order。無組大小,以降低 VRAM 需求。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.01 | wikitext | 2048 | 19.44 GB | 是 | 4 位,帶有 Act Order 和組大小 32g。提供最高可能的推理質量,但使用最大的 VRAM。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.01 | wikitext | 2048 | 18.18 GB | 是 | 4 位,帶有 Act Order 和組大小 64g。使用的 VRAM 比 32g 少,但精度稍低。 |
gptq-4bit-128g-actorder_True | 4 | 128 | 是 | 0.01 | wikitext | 2048 | 17.55 GB | 是 | 4 位,帶有 Act Order 和組大小 128g。使用的 VRAM 比 64g 更少,但精度稍低。 |
gptq-8bit--1g-actorder_True | 8 | 無 | 是 | 0.01 | wikitext | 2048 | 32.99 GB | 否 | 8 位,帶有 Act Order。無組大小,以降低 VRAM 需求。 |
gptq-8bit-128g-actorder_False | 8 | 128 | 否 | 0.01 | wikitext | 2048 | 33.73 GB | 否 | 8 位,帶有組大小 128g 以提高推理質量,不使用 Act Order 以提高 AutoGPTQ 速度。 |
gptq-3bit--1g-actorder_True | 3 | 無 | 是 | 0.01 | wikitext | 2048 | 12.92 GB | 否 | 3 位,帶有 Act Order 且無組大小。最低的 VRAM 需求。質量可能比 3 位 128g 低。 |
gptq-3bit-128g-actorder_False | 3 | 128 | 否 | 0.01 | wikitext | 2048 | 13.51 GB | 否 | 3 位,帶有組大小 128g 但無 Act Order。VRAM 需求比 3 位 None 稍高。 |
兼容性
提供的文件經過測試,可與 AutoGPTQ 一起使用,包括通過 Transformers 和直接使用 AutoGPTQ。它們也應該與 Occ4m 的 GPTQ-for-LLaMa 分支 一起使用。 ExLlama 與 4 位的 Llama 模型兼容。請參閱上面的“提供的文件”表以獲取每個文件的兼容性信息。 Huggingface 文本生成推理 (TGI) 與所有 GPTQ 模型兼容。
原始模型卡片:Henk717 的 Chronoboros 33B
此模型是 Airoboros-33B-1.4 和 Chronos-33B 之間 50/50 平均權重合並的結果。 經過長時間測試,我們得出結論,雖然此合併模型非常靈活,能夠完成許多不同的任務,但它的回答變化太大,不夠可靠。 因此,該模型需要一些運氣才能獲得好的結果,因此不建議尋求一致體驗的人或對基於預期的成癮敏感的人使用。 如果你想要此模型的更穩定改進版本,請查看我的 Airochronos-33B 合併模型。
📄 許可證
許可證信息:其他
🔗 相關鏈接
- 模型創建者:Henky!!
- 原始模型:Chronoboros 33B
- Discord 服務器:TheBloke AI 的 Discord 服務器
- Patreon:https://patreon.com/TheBlokeAI
- Ko-Fi:https://ko-fi.com/TheBlokeAI
🙏 感謝與貢獻
感謝 chirper.ai 團隊! 感謝來自 gpus.llm-utils.org 的 Clay! 很多人問是否可以貢獻。我喜歡提供模型並幫助他人,也希望能夠花更多時間做這些事情,以及開展新的項目,如微調/訓練。 如果你有能力並願意貢獻,將不勝感激,這將幫助我繼續提供更多模型,並開始新的 AI 項目。 捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間,以及其他福利。
特別感謝:Aemon Algiz。
Patreon 特別提及:Alicia Loh、Stephen Murray、K、Ajan Kanaga、RoA、Magnesian、Deo Leter、Olakabola、Eugene Pentland、zynix、Deep Realms、Raymond Fosdick、Elijah Stavena、Iucharbius、Erik Bjäreholt、Luis Javier Navarrete Lozano、Nicholas、theTransient、John Detwiler、alfie_i、knownsqashed、Mano Prime、Willem Michiel、Enrico Ros、LangChain4j、OG、Michael Dempsey、Pierre Kircher、Pedro Madruga、James Bentley、Thomas Belote、Luke @flexchar、Leonard Tan、Johann - Peter Hartmann、Illia Dulskyi、Fen Risland、Chadd、S_X、Jeff Scroggin、Ken Nordquist、Sean Connelly、Artur Olbinski、Swaroop Kallakuri、Jack West、Ai Maven、David Ziegler、Russ Johnson、transmissions 11、John Villwock、Alps Aficionado、Clay Pascal、Viktor Bowallius、Subspace Studios、Rainer Wilmers、Trenton Dambrowitz、vamX、Michael Levine、준교 김、Brandon Frisco、Kalila、Trailburnt、Randy H、Talal Aujan、Nathan Dryer、Vadim、阿明、ReadyPlayerEmma、Tiffany J. Kim、George Stoitzev、Spencer Kim、Jerry Meng、Gabriel Tamborski、Cory Kujawski、Jeffrey Morgan、Spiking Neurons AB、Edmond Seymore、Alexandros Triantafyllidis、Lone Striker、Cap'n Zoog、Nikolai Manek、danny、ya boyyy、Derek Yates、usrbinkat、Mandus、TL、Nathan LeClaire、subjectnull、Imad Khwaja、webtim、Raven Klaugh、Asp the Wyvern、Gabriel Puliatti、Caitlyn Gatomon、Joseph William Delisle、Jonathan Leane、Luke Pendergrass、SuperWojo、Sebastain Graf、Will Dee、Fred von Graf、Andrey、Dan Guido、Daniel P. Andersen、Nitin Borwankar、Elle、Vitor Caleffi、biorpg、jjj、NimbleBox.ai、Pieter、Matthew Berman、terasurfer、Michael Davis、Alex、Stanislav Ovsiannikov
感謝所有慷慨的贊助者和捐贈者! 再次感謝 a16z 的慷慨資助。



