Meta-Llama-3-70B-Instruct-GGUF開源模型 - 免費部署帶來高效本地運行體驗

首頁

Meta Llama 3 70B Instruct GGUF

由PawanKrd開發

Llama 3 70B Instruct的GGUF格式版本，提供更高效的本地運行體驗

大型語言模型

Transformers

英語#大語言模型 #指令微調 #多輪對話

下載量 468

發布時間 : 4/18/2024

模型概述

Meta發佈的Llama 3 70B大語言模型的指令調優版本，適用於對話和指令跟隨任務

模型特點

GGUF格式優化

採用新一代GGUF格式，相比GGML具有更好的擴展性和元數據支持

大容量上下文

支持長達8192 tokens的上下文窗口，適合處理長文檔和複雜對話

多平臺兼容

支持多種客戶端和庫，可在不同硬件平臺上運行

高效推理

提供多種量化版本，平衡模型精度和運行效率

模型能力

文本生成

對話系統

指令理解與執行

內容創作

代碼生成

知識問答

使用案例

智能助手

個人AI助手

用於日常問答、日程管理和信息查詢

提供準確、自然的對話體驗

內容創作

文章撰寫

輔助寫作各類文章和報告

生成連貫、有邏輯性的文本

教育

學習輔導

解答學生問題，解釋複雜概念

提供個性化的學習支持

🚀 Llama 3 70B Instruct - GGUF

本項目包含了 Meta公司的Llama 3 70B Instruct 模型的GGUF格式文件，旨在為用戶提供更便捷、高效的模型使用體驗。

🚀 快速開始

模型信息

屬性	詳情
模型創建者	Meta
原始模型	Llama 3 70B Instruct
模型類型	llama
許可證	llama2

關於GGUF

GGUF是由llama.cpp團隊在2023年8月21日推出的一種新格式，它取代了不再受llama.cpp支持的GGML格式。GGUF相較於GGML具有諸多優勢，例如更好的分詞功能、對特殊標記的支持，還支持元數據，並且設計為可擴展的。

以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供命令行界面和服務器選項。
text-generation-webui：最廣泛使用的Web界面，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：功能齊全的Web界面，支持所有平臺和GPU架構的GPU加速，尤其適合講故事。
LM Studio：適用於Windows和macOS（Silicon）的易用且強大的本地圖形用戶界面，支持GPU加速。
LoLLMS Web UI：一個很棒的Web界面，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於選擇模型。
Faraday.dev：適用於Windows和macOS（Silicon和Intel）的有吸引力且易於使用的基於角色的聊天圖形用戶界面，支持GPU加速。
ctransformers：一個支持GPU加速、LangChain和OpenAI兼容AI服務器的Python庫。
llama-cpp-python：一個支持GPU加速、LangChain和OpenAI兼容API服務器的Python庫。
candle：一個專注於性能的Rust機器學習框架，包括GPU支持，並且易於使用。

📦 安裝指南

如何下載GGUF文件

⚠️ 重要提示

手動下載者請注意：幾乎不需要克隆整個倉庫！這裡提供了多種不同的量化格式，大多數用戶只需要選擇並下載單個文件。

以下客戶端/庫會自動為你下載模型，並提供可用模型列表供你選擇：

LM Studio
LoLLMS Web UI
Faraday.dev

在`text-generation-webui`中下載

在“Download Model”下，你可以輸入模型倉庫地址：PawanKrd/Llama-3-70B-Instruct-GGUF，然後在下方輸入要下載的具體文件名，例如：llama-3-70b-instruct.Q4_K_M.gguf，最後點擊“Download”。

在命令行下載（可同時下載多個文件）

建議使用huggingface-hub Python庫：

pip3 install huggingface-hub>=0.17.1

然後，你可以使用以下命令將任何單個模型文件高速下載到當前目錄：

huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高級的huggingface-cli下載用法

你還可以使用通配符一次下載多個文件：

huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有關使用huggingface-cli下載的更多文檔，請參閱：HF -> Hub Python Library -> Download files -> Download from the CLI。

要在高速連接（1Gbit/s或更高）上加速下載，請安裝hf_transfer：

pip3 install hf_transfer

並將環境變量HF_HUB_ENABLE_HF_TRANSFER設置為1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用戶：在運行下載命令之前使用set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

💻 使用示例

在`llama.cpp`中運行

確保你使用的llama.cpp版本是提交號為 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高的版本。

./main -ngl 32 -m llama-3-70b-instruct.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"

將-ngl 32更改為要卸載到GPU的層數。如果沒有GPU加速，請刪除該參數。
將-c 8192更改為所需的序列長度。對於擴展序列模型（例如8K、16K、32K），必要的RoPE縮放參數會從GGUF文件中讀取，並由llama.cpp自動設置。

如果你想進行聊天式對話，將-p <PROMPT>參數替換為-i -ins。

有關其他參數及其用法，請參考 llama.cpp文檔。

在`text-generation-webui`中運行

更多說明請參考：text-generation-webui/docs/llama.cpp.md。

從Python代碼中運行

你可以使用 llama-cpp-python 或 ctransformers 庫從Python中使用GGUF模型。

使用ctransformers從Python加載此模型

首先安裝包

# 無GPU加速的基礎ctransformers
pip install ctransformers>=0.2.24
# 或使用CUDA GPU加速
pip install ctransformers[cuda]>=0.2.24
# 或使用ROCm GPU加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或為macOS系統使用Metal GPU加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

加載GGUF模型的簡單示例代碼

from ctransformers import AutoModelForCausalLM

# 將gpu_layers設置為要卸載到GPU的層數。如果系統上沒有GPU加速，請將其設置為0。
llm = AutoModelForCausalLM.from_pretrained("PawanKrd/Llama-3-70B-Instruct-GGUF", model_file="llama-3-70b-instruct.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))