🚀 Dolphin 2.5 Mixtral 8X7B - GPTQ
本項目提供了Dolphin 2.5 Mixtral 8X7B模型的GPTQ量化版本,可用於不同硬件環境下的高效推理。該模型基於Mixtral架構,在多種數據集上進行訓練,具備出色的編碼能力和良好的通用性。
📦 模型信息
屬性 |
詳情 |
模型類型 |
Mixtral |
訓練數據 |
ehartford/dolphin、jondurbin/airoboros-2.2.1、ehartford/dolphin-coder、migtissera/Synthia-v1.3、teknium/openhermes、ise-uiuc/Magicoder-OSS-Instruct-75K、ise-uiuc/Magicoder-Evol-Instruct-110K、LDJnr/Pure-Dove |
模型創建者 |
Eric Hartford |
量化者 |
TheBloke |
許可證 |
apache-2.0 |
✨ 主要特性
- 多數據集訓練:使用多個高質量數據集進行訓練,提升了模型的通用性和專業性。
- 多種量化選項:提供多種GPTQ量化參數,可根據硬件和需求選擇最合適的版本。
- 高效推理:GPTQ量化模型在保證一定精度的前提下,顯著減少了顯存使用,提高了推理效率。
🚀 快速開始
下載模型
在text-generation-webui中下載
- 從
main
分支下載:在“Download model”框中輸入TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ
。
- 從其他分支下載:在下載名稱末尾添加
:branchname
,例如TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ:gptq-4bit-128g-actorder_True
。
從命令行下載
推薦使用huggingface-hub
Python庫:
pip3 install huggingface-hub
下載main
分支到dolphin-2.5-mixtral-8x7b-GPTQ
文件夾:
mkdir dolphin-2.5-mixtral-8x7b-GPTQ
huggingface-cli download TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ --local-dir dolphin-2.5-mixtral-8x7b-GPTQ --local-dir-use-symlinks False
從其他分支下載,添加--revision
參數:
mkdir dolphin-2.5-mixtral-8x7b-GPTQ
huggingface-cli download TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ --revision gptq-4bit-128g-actorder_True --local-dir dolphin-2.5-mixtral-8x7b-GPTQ --local-dir-use-symlinks False
在text-generation-webui中使用
- 點擊Model tab。
- 在Download custom model or LoRA下輸入
TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ
。
- 若從特定分支下載,輸入例如
TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ:gptq-4bit-128g-actorder_True
。
- 點擊Download。
- 模型開始下載,完成後顯示“Done”。
- 在左上角點擊Model旁邊的刷新圖標。
- 在Model下拉菜單中選擇剛下載的模型:
dolphin-2.5-mixtral-8x7b-GPTQ
。
- 模型將自動加載,即可使用!
- 若需要自定義設置,設置後點擊Save settings for this model,然後點擊右上角的Reload the Model。
- 準備好後,點擊Text Generation標籤,輸入提示詞開始!
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline
model_name_or_path = "TheBloke/dolphin-2.5-mixtral-8x7b-GPTQ"
model = AutoModelForCausalLM.from_pretrained(model_name_or_path,
device_map="auto",
trust_remote_code=False,
revision="main")
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
prompt = "Write a story about llamas"
system_message = "You are a story writing assistant"
prompt_template=f'''<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
'''
print("\n\n*** Generate:")
input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, do_sample=True, top_p=0.95, top_k=40, max_new_tokens=512)
print(tokenizer.decode(output[0]))
print("*** Pipeline:")
pipe = pipeline(
"text-generation",
model=model,
tokenizer=tokenizer,
max_new_tokens=512,
do_sample=True,
temperature=0.7,
top_p=0.95,
top_k=40,
repetition_penalty=1.1
)
print(pipe(prompt_template)[0]['generated_text'])
📚 詳細文檔
提示模板
本模型使用ChatML提示模板:
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
已知兼容的客戶端/服務器
GPTQ模型目前支持Linux(NVidia/AMD)和Windows(僅NVidia)。macOS用戶請使用GGUF模型。Mixtral GPTQ目前有特殊要求,請參閱上文描述。
提供的文件和GPTQ參數
提供了多個量化參數,允許您根據硬件和需求選擇最佳參數。每個單獨的量化版本位於不同的分支中,以下是獲取不同分支的說明。大多數GPTQ文件使用AutoGPTQ製作,Mistral模型目前使用Transformers製作。
兼容性
提供的文件經過測試,可與AutoGPTQ 0.6(從源代碼編譯)和Transformers 4.37.0(從Github安裝)一起使用。
🔧 技術細節
模型訓練
該模型基於Mixtral-8x7b,基礎模型具有32k上下文,微調時使用16k上下文。訓練使用了qLoRA和Axolotl,在4x A100上訓練1.5個epoch,耗時3天。
數據集更新
在2.5版本中,移除了Samantha和WizardLM,添加了Synthia、OpenHermes、PureDove、新的Dolphin-Coder數據集和MagiCoder數據集。
模型特點
該模型在編碼方面表現出色,經過大量編碼數據訓練。它非常聽話,但未經過DPO微調,因此可能需要在系統提示中進行引導。模型未經過審查,過濾了數據集以去除對齊和偏差,這使模型更易服從。建議在將模型作為服務公開之前實現自己的對齊層,因為它會高度服從任何請求,包括不道德的請求。
📄 許可證
本項目使用apache-2.0許可證。
🔗 相關鏈接
👏 致謝與貢獻
感謝chirper.ai團隊和gpus.llm-utils.org的Clay!如果您願意貢獻,捐贈將非常感激,這將幫助提供更多模型並開展新的AI項目。捐贈者將獲得優先支持、訪問私人Discord房間等福利。
特別感謝Aemon Algiz以及眾多Patreon支持者!同時感謝a16z的慷慨資助。
🚧 未來計劃
Dolphin 3.0數據集正在開發中,將包括增強的通用聊天用例、結構化輸出、Agent案例(如Autogen、Memgpt、Functions)和角色扮演等功能。
如果您想在經濟上支持這些努力,請訪問Ko-fi。還有周邊商品可供購買。