模型概述
模型特點
模型能力
使用案例
🚀 Llama2 13B Tiefighter - GPTQ
本項目提供了 KoboldAI的Llama2 13B Tiefighter 的GPTQ模型文件,支持多種量化參數,可根據不同硬件和需求進行選擇。

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助
✨ 主要特性
- 提供多種GPTQ量化參數選項,可根據硬件和需求選擇。
- 支持多種推理服務器和Web UI,如text-generation-webui、KobaldAI United等。
- 支持從不同分支下載模型。
📦 安裝指南
安裝必要的Python庫
pip3 install huggingface-hub
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/ # 使用CUDA 11.7時用cu117
若使用預構建的輪子安裝AutoGPTQ有問題,可從源碼安裝:
pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .
下載模型
在text-generation-webui中下載
- 從
main
分支下載,在“Download model”框中輸入TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。 - 從其他分支下載,在下載名稱後添加
:branchname
,如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
。
從命令行下載
下載main
分支到名為LLaMA2-13B-Tiefighter-GPTQ
的文件夾:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
從不同分支下載,添加--revision
參數:
mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False
💻 使用示例
在text-generation-webui中使用
- 點擊Model tab。
- 在Download custom model or LoRA下輸入
TheBloke/LLaMA2-13B-Tiefighter-GPTQ
。- 從特定分支下載,輸入如
TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True
。
- 從特定分支下載,輸入如
- 點擊Download。
- 模型開始下載,完成後顯示“Done”。
- 在左上角點擊Model旁邊的刷新圖標。
- 在Model下拉菜單中選擇剛下載的模型:
LLaMA2-13B-Tiefighter-GPTQ
。 - 模型自動加載,即可使用。
- 若需要自定義設置,設置後點擊Save settings for this model,然後點擊右上角的Reload the Model。
- 準備好後,點擊Text Generation標籤,輸入提示開始!
從Python代碼使用
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 要使用不同分支,更改revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
# 也可以使用transformers的pipeline進行推理
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
從Text Generation Inference (TGI)服務模型
建議使用TGI版本1.1.0或更高版本,官方Docker容器為:ghcr.io/huggingface/text-generation-inference:1.1.0
。
示例Docker參數:
--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096
與TGI交互的示例Python代碼(需要huggingface-hub 0.17.0或更高版本):
from huggingface_hub import InferenceClient
endpoint_url = "https://your-endpoint-url-here"
prompt = "Tell me about AI"
prompt_template=f'''### Instruction:
{prompt}
### Response:
'''
client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
max_new_tokens=128,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1)
print(f"模型輸出: {response}")
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | llama |
模型創建者 | KoboldAI |
原始模型 | Llama2 13B Tiefighter |
許可證 | llama2 |
提示模板
### Instruction:
{prompt}
### Response:
已知兼容的客戶端/服務器
提供的文件和GPTQ參數
提供了多個量化參數,可根據硬件和需求選擇最佳參數。每個單獨的量化在不同的分支中,以下是從不同分支獲取的說明。大多數GPTQ文件使用AutoGPTQ製作,Mistral模型目前使用Transformers製作。
GPTQ參數說明
- Bits:量化模型的位大小。
- GS:GPTQ組大小。較高的數字使用較少的VRAM,但量化精度較低。“None”是可能的最低值。
- Act Order:True或False。也稱為
desc_act
。True可獲得更好的量化精度。一些GPTQ客戶端在使用Act Order和Group Size的模型時遇到過問題,但現在通常已解決。 - Damp %:影響量化樣本處理方式的GPTQ參數。默認值為0.01,但0.1可獲得稍好的精度。
- GPTQ數據集:量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。請注意,GPTQ校準數據集與用於訓練模型的數據集不同 - 請參考原始模型倉庫瞭解訓練數據集的詳細信息。
- 序列長度:量化時使用的數據集序列長度。理想情況下,這與模型序列長度相同。對於一些非常長序列的模型(16+K),可能需要使用較低的序列長度。請注意,較低的序列長度不會限制量化模型的序列長度。它僅影響較長推理序列的量化精度。
- ExLlama兼容性:此文件是否可以使用ExLlama加載,目前ExLlama僅支持4位的Llama模型。
分支 | Bits | GS | Act Order | Damp % | GPTQ數據集 | Seq Len | 大小 | ExLlama | 描述 |
---|---|---|---|---|---|---|---|---|---|
main | 4 | 128 | 是 | 0.1 | wikitext | 4096 | 7.26 GB | 是 | 4位,帶有Act Order和組大小128g。比32g使用更少的VRAM,但精度稍低。 |
gptq-4bit-32g-actorder_True | 4 | 32 | 是 | 0.1 | wikitext | 4096 | 8.00 GB | 是 | 4位,帶有Act Order和組大小32g。可獲得最高的推理質量,但使用最大的VRAM。 |
gptq-8bit--1g-actorder_True | 8 | 無 | 是 | 0.1 | wikitext | 4096 | 13.36 GB | 否 | 8位,帶有Act Order。無組大小,以降低VRAM要求。 |
gptq-8bit-128g-actorder_True | 8 | 128 | 是 | 0.1 | wikitext | 4096 | 13.65 GB | 否 | 8位,組大小為128g以提高推理質量,帶有Act Order以獲得更高的精度。 |
gptq-8bit-32g-actorder_True | 8 | 32 | 是 | 0.1 | wikitext | 4096 | 14.54 GB | 否 | 8位,組大小為32g和Act Order以獲得最大的推理質量。 |
gptq-4bit-64g-actorder_True | 4 | 64 | 是 | 0.1 | wikitext | 4096 | 7.51 GB | 是 | 4位,帶有Act Order和組大小64g。比32g使用更少的VRAM,但精度稍低。 |
兼容性
提供的文件經測試可與Transformers一起使用。對於非Mistral模型,也可以直接使用AutoGPTQ。
ExLlama 與4位的Llama和Mistral模型兼容。請參閱上面的“提供的文件”表瞭解每個文件的兼容性。
原始模型信息
Tiefighter是通過在一個成熟的現有合併模型基礎上合併兩個不同的lora而得到的合併模型。具體步驟如下:
- 以Undi95/Xwin-MLewd-13B-V0.2為基礎模型,該模型是一個成熟的合併模型,與名稱相反,該模型沒有很強的NSFW傾向。
- 應用PocketDoc/Dans-RetroRodeo-13b lora,這是在Skein模型的“Choose your own Adventure”數據集上進行微調的結果。
- 應用此lora後,將新模型與PocketDoc/Dans-RetroRodeo-13b以5%的比例合併,以削弱新引入的冒險傾向。
- 將得到的合併模型作為新的基礎模型,應用Blackroot/Llama-2-13B-Storywriter-LORA,並再次以10%的比例重複相同的操作。
使用場景
故事寫作
支持傳統的故事寫作方式,只需複製粘貼故事並繼續編寫。也可以在內存中使用指令或作者註釋來引導故事的方向。
聊天機器人和角色模擬
該模型在各種聊天形式中進行了測試,測試者發現通常“少即是多”,模型善於即興發揮。不要向模型提供大量詳細信息,而是先保持簡單,看看模型自身理解角色的能力有多強。對於這樣的13B模型,複製粘貼大量背景信息並不合適,使用代碼格式的角色或指令提示來描述你想與之交談的對象會更有效。
指令提示
該模型集成了多種指令模型,支持多種指令風格。測試時使用了Alpaca格式,但也可以嘗試其他喜歡的格式。在指令過程中,有時冒險數據可能會洩露,使用>
作為用戶命令的前綴可能會有所改善,但這可能會導致更強的虛構傾向。
冒險和冒險遊戲
該模型包含一個在與KoboldAI Skein模型相同的冒險數據集上訓練的lora。最好在使用>
作為用戶命令前綴(KoboldAI的冒險模式)時,對世界和目標進行簡要介紹來進行冒險。
🔧 技術細節
本項目使用GPTQ量化技術對模型進行量化,以減少模型的內存佔用和推理時間。不同的GPTQ參數會影響量化的精度和性能,用戶可以根據自己的硬件和需求選擇合適的參數。
📄 許可證
本項目使用llama2許可證。
Discord
如需進一步支持,或參與這些模型和人工智能的討論,請加入: TheBloke AI的Discord服務器
感謝與貢獻
感謝 chirper.ai 團隊!感謝來自 gpus.llm-utils.org 的Clay!
如果您願意貢獻,將不勝感激,這將幫助我繼續提供更多模型,並開展新的人工智能項目。捐贈者將在所有AI/LLM/模型問題和請求上獲得優先支持,訪問私人Discord房間以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝:Aemon Algiz。
Patreon特別提及:Pierre Kircher、Stanislav Ovsiannikov等眾多支持者。
感謝所有慷慨的贊助者和捐贈者!再次感謝a16z的慷慨資助。



