🚀 Llama 3 70B Instruct - GGUF
本项目包含了 Meta公司的Llama 3 70B Instruct 模型的GGUF格式文件,旨在为用户提供更便捷、高效的模型使用体验。
🚀 快速开始
模型信息
关于GGUF
GGUF是由llama.cpp团队在2023年8月21日推出的一种新格式,它取代了不再受llama.cpp支持的GGML格式。GGUF相较于GGML具有诸多优势,例如更好的分词功能、对特殊标记的支持,还支持元数据,并且设计为可扩展的。
以下是已知支持GGUF的客户端和库的不完全列表:
📦 安装指南
如何下载GGUF文件
⚠️ 重要提示
手动下载者请注意:几乎不需要克隆整个仓库!这里提供了多种不同的量化格式,大多数用户只需要选择并下载单个文件。
以下客户端/库会自动为你下载模型,并提供可用模型列表供你选择:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui
中下载
在“Download Model”下,你可以输入模型仓库地址:PawanKrd/Llama-3-70B-Instruct-GGUF,然后在下方输入要下载的具体文件名,例如:llama-3-70b-instruct.Q4_K_M.gguf,最后点击“Download”。
在命令行下载(可同时下载多个文件)
建议使用huggingface-hub
Python库:
pip3 install huggingface-hub>=0.17.1
然后,你可以使用以下命令将任何单个模型文件高速下载到当前目录:
huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高级的huggingface-cli下载用法
你还可以使用通配符一次下载多个文件:
huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有关使用huggingface-cli
下载的更多文档,请参阅:HF -> Hub Python Library -> Download files -> Download from the CLI。
要在高速连接(1Gbit/s或更高)上加速下载,请安装hf_transfer
:
pip3 install hf_transfer
并将环境变量HF_HUB_ENABLE_HF_TRANSFER
设置为1
:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用户:在运行下载命令之前使用set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
💻 使用示例
在llama.cpp
中运行
确保你使用的llama.cpp
版本是提交号为 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高的版本。
./main -ngl 32 -m llama-3-70b-instruct.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
- 将
-ngl 32
更改为要卸载到GPU的层数。如果没有GPU加速,请删除该参数。
- 将
-c 8192
更改为所需的序列长度。对于扩展序列模型(例如8K、16K、32K),必要的RoPE缩放参数会从GGUF文件中读取,并由llama.cpp自动设置。
如果你想进行聊天式对话,将-p <PROMPT>
参数替换为-i -ins
。
有关其他参数及其用法,请参考 llama.cpp文档。
在text-generation-webui
中运行
更多说明请参考:text-generation-webui/docs/llama.cpp.md。
从Python代码中运行
你可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。
使用ctransformers从Python加载此模型
首先安装包
pip install ctransformers>=0.2.24
pip install ctransformers[cuda]>=0.2.24
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
加载GGUF模型的简单示例代码
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("PawanKrd/Llama-3-70B-Instruct-GGUF", model_file="llama-3-70b-instruct.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
如何与LangChain一起使用
以下是使用llama-cpp-python或ctransformers与LangChain的指南:
📚 详细文档
Discord
Pawan.Krd的Discord服务器
致谢
本README文件最初由 TheBlok 创建,并已针对此仓库进行了修改。