LLaMA2-13B-Tiefighter-GPTQ開源大語言模型 - 免費部署，創意寫作與角色扮演能手

首頁

Llama2 13B Tiefighter GPTQ

由TheBloke開發

Tiefighter是一個通過合併兩個不同的LoRA在現有成熟合併模型基礎上實現的13B參數大語言模型，擅長創意寫作和角色扮演。

大型語言模型

Transformers

#創意寫作 #角色扮演 #冒險遊戲

下載量 94

發布時間 : 10/22/2023

模型概述

該模型基於LLaMA2-13B架構，通過合併多個優秀模型和LoRA適配器而成，特別優化了創意寫作、故事生成和角色扮演能力。

模型特點

創意寫作優化

特別適合故事創作和創意寫作任務，能夠生成連貫的長篇內容

角色扮演能力

經過調整可支持複雜的角色扮演場景，能保持角色一致性

多模型融合

融合了多個優秀上游模型的優勢，包括Xwin-MLewd、RetroRodeo和Storywriter等

靈活提示格式

支持多種指令格式，包括Alpaca格式和自由聊天模式

模型能力

文本生成

對話系統

故事創作

角色扮演

指令跟隨

創意寫作

使用案例

內容創作

小說寫作

生成連貫的小說章節和情節發展

能夠創作具有邏輯性的長篇故事內容

劇本創作

生成包含對話和場景描述的劇本

能保持角色對話風格一致性

娛樂應用

文字冒險遊戲

作為遊戲引擎驅動基於文本的冒險遊戲

支持>命令形式的冒險模式交互

角色扮演聊天

模擬特定角色的對話行為

能根據簡單提示即興發揮角色特性

🚀 Llama2 13B Tiefighter - GPTQ

本項目提供了 KoboldAI的Llama2 13B Tiefighter 的GPTQ模型文件，支持多種量化參數，可根據不同硬件和需求進行選擇。

交流與支持：TheBloke的Discord服務器

想要貢獻？TheBloke的Patreon頁面

TheBloke的大語言模型工作得到了 andreessen horowitz (a16z) 的慷慨資助

✨ 主要特性

提供多種GPTQ量化參數選項，可根據硬件和需求選擇。
支持多種推理服務器和Web UI，如text-generation-webui、KobaldAI United等。
支持從不同分支下載模型。

📦 安裝指南

安裝必要的Python庫

pip3 install huggingface-hub
pip3 install transformers optimum
pip3 install auto-gptq --extra-index-url https://huggingface.github.io/autogptq-index/whl/cu118/  # 使用CUDA 11.7時用cu117

若使用預構建的輪子安裝AutoGPTQ有問題，可從源碼安裝：

pip3 uninstall -y auto-gptq
git clone https://github.com/PanQiWei/AutoGPTQ
cd AutoGPTQ
git checkout v0.4.2
pip3 install .

下載模型

在text-generation-webui中下載

從main分支下載，在“Download model”框中輸入TheBloke/LLaMA2-13B-Tiefighter-GPTQ。
從其他分支下載，在下載名稱後添加:branchname，如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True。

從命令行下載

下載main分支到名為LLaMA2-13B-Tiefighter-GPTQ的文件夾：

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

從不同分支下載，添加--revision參數：

mkdir LLaMA2-13B-Tiefighter-GPTQ
huggingface-cli download TheBloke/LLaMA2-13B-Tiefighter-GPTQ --revision gptq-4bit-32g-actorder_True --local-dir LLaMA2-13B-Tiefighter-GPTQ --local-dir-use-symlinks False

💻 使用示例

在text-generation-webui中使用

點擊Model tab。
在Download custom model or LoRA下輸入TheBloke/LLaMA2-13B-Tiefighter-GPTQ。
- 從特定分支下載，輸入如TheBloke/LLaMA2-13B-Tiefighter-GPTQ:gptq-4bit-32g-actorder_True。
點擊Download。
模型開始下載，完成後顯示“Done”。
在左上角點擊Model旁邊的刷新圖標。
在Model下拉菜單中選擇剛下載的模型：LLaMA2-13B-Tiefighter-GPTQ。
模型自動加載，即可使用。
若需要自定義設置，設置後點擊Save settings for this model，然後點擊右上角的Reload the Model。
準備好後，點擊Text Generation標籤，輸入提示開始！

從Python代碼使用

from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_name_or_path = "TheBloke/LLaMA2-13B-Tiefighter-GPTQ"
# 要使用不同分支，更改revision
# 例如: revision="gptq-4bit-32g-actorder_True"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
                                             device_map="auto",
                                             trust_remote_code=False,
                                             revision="main")

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# 也可以使用transformers的pipeline進行推理
print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    do_sample=True,
    temperature=0.7,
    top_p=0.95,
    top_k=40,
    repetition_penalty=1.1
)

print(pipe(prompt_template)[0]['generated_text'])

從Text Generation Inference (TGI)服務模型

建議使用TGI版本1.1.0或更高版本，官方Docker容器為：ghcr.io/huggingface/text-generation-inference:1.1.0。示例Docker參數：

--model-id TheBloke/LLaMA2-13B-Tiefighter-GPTQ --port 3000 --quantize gptq --max-input-length 3696 --max-total-tokens 4096 --max-batch-prefill-tokens 4096

與TGI交互的示例Python代碼（需要huggingface-hub 0.17.0或更高版本）：

from huggingface_hub import InferenceClient

endpoint_url = "https://your-endpoint-url-here"

prompt = "Tell me about AI"
prompt_template=f'''### Instruction: 
{prompt}
### Response:
'''

client = InferenceClient(endpoint_url)
response = client.text_generation(prompt,
                                  max_new_tokens=128,
                                  do_sample=True,
                                  temperature=0.7,
                                  top_p=0.95,
                                  top_k=40,
                                  repetition_penalty=1.1)

print(f"模型輸出: {response}")

📚 詳細文檔

模型信息

屬性	詳情
模型類型	llama
模型創建者	KoboldAI
原始模型	Llama2 13B Tiefighter
許可證	llama2

提示模板

### Instruction: 
{prompt}
### Response:

已知兼容的客戶端/服務器

提供的文件和GPTQ參數

提供了多個量化參數，可根據硬件和需求選擇最佳參數。每個單獨的量化在不同的分支中，以下是從不同分支獲取的說明。大多數GPTQ文件使用AutoGPTQ製作，Mistral模型目前使用Transformers製作。

GPTQ參數說明

Bits：量化模型的位大小。
GS：GPTQ組大小。較高的數字使用較少的VRAM，但量化精度較低。“None”是可能的最低值。
Act Order：True或False。也稱為desc_act。True可獲得更好的量化精度。一些GPTQ客戶端在使用Act Order和Group Size的模型時遇到過問題，但現在通常已解決。
Damp %：影響量化樣本處理方式的GPTQ參數。默認值為0.01，但0.1可獲得稍好的精度。
GPTQ數據集：量化期間使用的校準數據集。使用更適合模型訓練的數據集可以提高量化精度。請注意，GPTQ校準數據集與用於訓練模型的數據集不同 - 請參考原始模型倉庫瞭解訓練數據集的詳細信息。
序列長度：量化時使用的數據集序列長度。理想情況下，這與模型序列長度相同。對於一些非常長序列的模型（16+K），可能需要使用較低的序列長度。請注意，較低的序列長度不會限制量化模型的序列長度。它僅影響較長推理序列的量化精度。
ExLlama兼容性：此文件是否可以使用ExLlama加載，目前ExLlama僅支持4位的Llama模型。

分支	Bits	GS	Act Order	Damp %	GPTQ數據集	Seq Len	大小	ExLlama	描述
main	4	128	是	0.1	wikitext	4096	7.26 GB	是	4位，帶有Act Order和組大小128g。比32g使用更少的VRAM，但精度稍低。
gptq-4bit-32g-actorder_True	4	32	是	0.1	wikitext	4096	8.00 GB	是	4位，帶有Act Order和組大小32g。可獲得最高的推理質量，但使用最大的VRAM。
gptq-8bit--1g-actorder_True	8	無	是	0.1	wikitext	4096	13.36 GB	否	8位，帶有Act Order。無組大小，以降低VRAM要求。
gptq-8bit-128g-actorder_True	8	128	是	0.1	wikitext	4096	13.65 GB	否	8位，組大小為128g以提高推理質量，帶有Act Order以獲得更高的精度。
gptq-8bit-32g-actorder_True	8	32	是	0.1	wikitext	4096	14.54 GB	否	8位，組大小為32g和Act Order以獲得最大的推理質量。
gptq-4bit-64g-actorder_True	4	64	是	0.1	wikitext	4096	7.51 GB	是	4位，帶有Act Order和組大小64g。比32g使用更少的VRAM，但精度稍低。

兼容性

提供的文件經測試可與Transformers一起使用。對於非Mistral模型，也可以直接使用AutoGPTQ。

ExLlama 與4位的Llama和Mistral模型兼容。請參閱上面的“提供的文件”表瞭解每個文件的兼容性。

原始模型信息

Tiefighter是通過在一個成熟的現有合併模型基礎上合併兩個不同的lora而得到的合併模型。具體步驟如下：

以Undi95/Xwin-MLewd-13B-V0.2為基礎模型，該模型是一個成熟的合併模型，與名稱相反，該模型沒有很強的NSFW傾向。
應用PocketDoc/Dans-RetroRodeo-13b lora，這是在Skein模型的“Choose your own Adventure”數據集上進行微調的結果。
應用此lora後，將新模型與PocketDoc/Dans-RetroRodeo-13b以5%的比例合併，以削弱新引入的冒險傾向。
將得到的合併模型作為新的基礎模型，應用Blackroot/Llama-2-13B-Storywriter-LORA，並再次以10%的比例重複相同的操作。