🚀 Llama 3 70B Instruct - GGUF
本項目包含了 Meta公司的Llama 3 70B Instruct 模型的GGUF格式文件,旨在為用戶提供更便捷、高效的模型使用體驗。
🚀 快速開始
模型信息
關於GGUF
GGUF是由llama.cpp團隊在2023年8月21日推出的一種新格式,它取代了不再受llama.cpp支持的GGML格式。GGUF相較於GGML具有諸多優勢,例如更好的分詞功能、對特殊標記的支持,還支持元數據,並且設計為可擴展的。
以下是已知支持GGUF的客戶端和庫的不完全列表:
📦 安裝指南
如何下載GGUF文件
⚠️ 重要提示
手動下載者請注意:幾乎不需要克隆整個倉庫!這裡提供了多種不同的量化格式,大多數用戶只需要選擇並下載單個文件。
以下客戶端/庫會自動為你下載模型,並提供可用模型列表供你選擇:
- LM Studio
- LoLLMS Web UI
- Faraday.dev
在text-generation-webui
中下載
在“Download Model”下,你可以輸入模型倉庫地址:PawanKrd/Llama-3-70B-Instruct-GGUF,然後在下方輸入要下載的具體文件名,例如:llama-3-70b-instruct.Q4_K_M.gguf,最後點擊“Download”。
在命令行下載(可同時下載多個文件)
建議使用huggingface-hub
Python庫:
pip3 install huggingface-hub>=0.17.1
然後,你可以使用以下命令將任何單個模型文件高速下載到當前目錄:
huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
更高級的huggingface-cli下載用法
你還可以使用通配符一次下載多個文件:
huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'
有關使用huggingface-cli
下載的更多文檔,請參閱:HF -> Hub Python Library -> Download files -> Download from the CLI。
要在高速連接(1Gbit/s或更高)上加速下載,請安裝hf_transfer
:
pip3 install hf_transfer
並將環境變量HF_HUB_ENABLE_HF_TRANSFER
設置為1
:
HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
Windows命令行用戶:在運行下載命令之前使用set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1
。
💻 使用示例
在llama.cpp
中運行
確保你使用的llama.cpp
版本是提交號為 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高的版本。
./main -ngl 32 -m llama-3-70b-instruct.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"
- 將
-ngl 32
更改為要卸載到GPU的層數。如果沒有GPU加速,請刪除該參數。
- 將
-c 8192
更改為所需的序列長度。對於擴展序列模型(例如8K、16K、32K),必要的RoPE縮放參數會從GGUF文件中讀取,並由llama.cpp自動設置。
如果你想進行聊天式對話,將-p <PROMPT>
參數替換為-i -ins
。
有關其他參數及其用法,請參考 llama.cpp文檔。
在text-generation-webui
中運行
更多說明請參考:text-generation-webui/docs/llama.cpp.md。
從Python代碼中運行
你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。
使用ctransformers從Python加載此模型
首先安裝包
pip install ctransformers>=0.2.24
pip install ctransformers[cuda]>=0.2.24
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
加載GGUF模型的簡單示例代碼
from ctransformers import AutoModelForCausalLM
llm = AutoModelForCausalLM.from_pretrained("PawanKrd/Llama-3-70B-Instruct-GGUF", model_file="llama-3-70b-instruct.Q4_K_M.gguf", model_type="llama", gpu_layers=50)
print(llm("AI is going to"))
如何與LangChain一起使用
以下是使用llama-cpp-python或ctransformers與LangChain的指南:
📚 詳細文檔
Discord
Pawan.Krd的Discord服務器
致謝
本README文件最初由 TheBlok 創建,並已針對此倉庫進行了修改。