🚀 PLLuM-8x7B-chat GGUF(非官方)
本仓库包含以GGUF格式存储的PLLuM-8x7B-chat模型的量化版本,该版本针对使用llama.cpp及相关工具进行本地推理进行了优化。量化能够在显著减小模型大小的同时,保持生成文本的良好质量,使其能够在标准硬件上运行。
这是唯一一个同时包含参考(F16) 和**(BF16)** 版本以及**(IQ3_S)** 量化版本的PLLuM-8x7B-chat模型的仓库。
GGUF版本允许你在LM Studio或Ollama等工具中运行模型。
✨ 主要特性
- 提供多种量化版本的PLLuM-8x7B-chat模型,满足不同硬件和应用场景的需求。
- 支持在多种工具(如LM Studio、Ollama等)中运行。
- 提供详细的下载和使用说明。
📦 安装指南
使用huggingface-cli下载模型
点击查看下载说明
首先,确保你已经安装了huggingface-cli工具:
pip install -U "huggingface_hub[cli]"
下载较小的模型
要下载小于50GB的特定模型(例如q4_k_m):
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
你也可以通过更改文件名来下载其他量化版本:
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q3_k_m.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-iq3_s.gguf" --local-dir ./
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q5_k_m.gguf" --local-dir ./
下载较大的模型(分割成多个部分)
对于大型模型,如F16或bf16,文件会被分割成较小的部分。要将所有部分下载到本地文件夹:
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-F16/*" --local-dir ./F16/
huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-bf16/*" --local-dir ./bf16/
使用hf_transfer加速下载
为了显著加快下载速度(最高可达1GB/s),你可以使用hf_transfer库:
pip install hf_transfer
HF_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download piotrmaciejbednarski/PLLuM-8x7B-chat-GGUF --include "PLLuM-8x7B-chat-gguf-q4_k_m.gguf" --local-dir ./
下载分割文件后合并
如果你下载的是分割后的模型,可以使用以下命令进行合并:
cat PLLuM-8x7B-chat-gguf-F16.part-* > PLLuM-8x7B-chat-gguf-F16.gguf
copy /b PLLuM-8x7B-chat-gguf-F16.part-* PLLuM-8x7B-chat-gguf-F16.gguf
💻 使用示例
使用llama.cpp
在这些示例中,我们将使用非官方仓库中的PLLuM模型。你可以从上面的可用模型表中下载你喜欢的量化版本。
下载完成后,将模型放在models
目录中。
基于Unix的系统(Linux、macOS等):
输入提示(一次性)
./llama-cli -m models/PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
Windows:
输入提示(一次性)
./llama-cli.exe -m models\PLLuM-8x7B-chat-gguf-q4_k_m.gguf --prompt "Pytanie: Jakie są największe miasta w Polsce? Odpowiedź:"
如需详细和最新的信息,请参考官方llama.cpp文档。
使用text-generation-webui
git clone https://github.com/oobabooga/text-generation-webui.git
cd text-generation-webui
pip install -r requirements.txt
python server.py --model path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf
使用Python和llama-cpp-python
from llama_cpp import Llama
llm = Llama(
model_path="path/to/PLLuM-8x7B-chat-gguf-q4_k_m.gguf",
n_ctx=4096,
n_threads=8,
n_batch=512
)
prompt = "Pytanie: Jakie są najciekawsze zabytki w Krakowie? Odpowiedź:"
output = llm(
prompt,
max_tokens=512,
temperature=0.7,
top_p=0.95
)
print(output["choices"][0]["text"])
📚 详细文档
可用模型
什么是量化?
量化是降低模型权重精度的过程,这可以减少内存需求,同时保持生成文本的可接受质量。GGUF(GPT生成统一格式)是GGML格式的继任者,它能够在消费级硬件上高效运行大型语言模型。
如何选择模型?
- Q2_K、IQ3_S和Q3_K_M:模型的最小版本,当节省内存是首要任务时理想选择。
- Q4_K_M:大多数应用的推荐选择 - 质量和大小之间的良好平衡。
- Q5_K_M:当你关心更好的质量并且有足够的内存时选择。
- Q8_0:在GPU上的最高质量,与原始模型相比质量下降最小。
- F16/BF16:全精度,未量化的参考版本。
关于PLLuM模型
PLLuM(波兰大型语言模型)是由波兰数字事务部开发的高级波兰语模型家族。此版本的模型(8x7B-chat)已针对对话(聊天)进行了优化。
模型能力:
- 生成波兰语文本
- 回答问题
- 总结文本
- 创建内容
- 翻译
- 解释概念
- 进行对话
📄 许可证
基础的PLLuM 8x7B-chat模型根据Apache许可证2.0进行分发。量化版本也遵循相同的许可证。
👨💻 作者
本仓库和量化的作者是Piotr Bednarski。