🚀 PLLuM-8x7B-chat GGUF(非官方)
本倉庫包含以GGUF格式存儲的PLLuM-8x7B-chat模型的量化版本,該版本針對使用llama.cpp及相關工具進行本地推理進行了優化。量化能夠在顯著減小模型大小的同時,保持生成文本的良好質量,使其能夠在標準硬件上運行。
這是唯一一個同時包含參考(F16) 和**(BF16)** 版本以及**(IQ3_S)** 量化版本的PLLuM-8x7B-chat模型的倉庫。
GGUF版本允許你在LM Studio或Ollama等工具中運行模型。
✨ 主要特性
- 提供多種量化版本的PLLuM-8x7B-chat模型,滿足不同硬件和應用場景的需求。
- 支持在多種工具(如LM Studio、Ollama等)中運行。
- 提供詳細的下載和使用說明。
📦 安裝指南
使用huggingface-cli下載模型
點擊查看下載說明
首先,確保你已經安裝了huggingface-cli工具:
pip install -U "huggingface_hub[cli]"
下載較小的模型
要下載小於50GB的特定模型(例如q4_k_m):
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
你也可以通過更改文件名來下載其他量化版本:
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q3_k_m.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-iq3_s.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q5_k_m.gguf" --local-dir ./
下載較大的模型(分割成多個部分)
對於大型模型,如F16或bf16,文件會被分割成較小的部分。要將所有部分下載到本地文件夾:
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-F16/*" --local-dir ./F16/
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-bf16/*" --local-dir ./bf16/
使用hf_transfer加速下載
為了顯著加快下載速度(最高可達1GB/s),你可以使用hf_transfer庫:
pip install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
下載分割文件後合併
如果你下載的是分割後的模型,可以使用以下命令進行合併:
cat PLLuM-8x7B-chat-gguf-F16.part-* > PLLuM-8x7B-chat-gguf-F16.gguf
copy /b PLLuM-8x7B-chat-gguf-F16.part-* PLLuM-8x7B-chat-gguf-F16.gguf
💻 使用示例
使用llama.cpp
在這些示例中,我們將使用非官方倉庫中的PLLuM模型。你可以從上面的可用模型表中下載你喜歡的量化版本。
下載完成後,將模型放在models
目錄中。
基於Unix的系統(Linux、macOS等):
輸入提示(一次性)
./llama-cli -m models/PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
Windows:
輸入提示(一次性)
./llama-cli.exe -m models\PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
如需詳細和最新的信息,請參考官方llama.cpp文檔。
使用text-generation-webui
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
python server.py --model path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf
使用Python和llama-cpp-python
from llama_cpp import Llama
llm = Llama(
model_path="path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf",
n_ctx=4096,
n_threads=8,
n_batch=512
)
prompt = "Pytanie: Jakie są najciekawsze zabytki w Krakowie? Odpowiedź:"
output = llm(
prompt,
max_tokens=512,
temperature=0.7,
top_p=0.95
)
print(output["choices"][0]["text"])
📚 詳細文檔
可用模型
什麼是量化?
量化是降低模型權重精度的過程,這可以減少內存需求,同時保持生成文本的可接受質量。GGUF(GPT生成統一格式)是GGML格式的繼任者,它能夠在消費級硬件上高效運行大型語言模型。
如何選擇模型?
- Q2_K、IQ3_S和Q3_K_M:模型的最小版本,當節省內存是首要任務時理想選擇。
- Q4_K_M:大多數應用的推薦選擇 - 質量和大小之間的良好平衡。
- Q5_K_M:當你關心更好的質量並且有足夠的內存時選擇。
- Q8_0:在GPU上的最高質量,與原始模型相比質量下降最小。
- F16/BF16:全精度,未量化的參考版本。
關於PLLuM模型
PLLuM(波蘭大型語言模型)是由波蘭數字事務部開發的高級波蘭語模型家族。此版本的模型(8x7B-chat)已針對對話(聊天)進行了優化。
模型能力:
- 生成波蘭語文本
- 回答問題
- 總結文本
- 創建內容
- 翻譯
- 解釋概念
- 進行對話
📄 許可證
基礎的PLLuM 8x7B-chat模型根據Apache許可證2.0進行分發。量化版本也遵循相同的許可證。
👨💻 作者
本倉庫和量化的作者是Piotr Bednarski。