Meta-Llama-3-70B-Instruct-GGUF开源模型 - 免费部署带来高效本地运行体验

首页

Meta Llama 3 70B Instruct GGUF

由 PawanKrd 开发

Llama 3 70B Instruct的GGUF格式版本，提供更高效的本地运行体验

大型语言模型

Transformers

英语#大语言模型 #指令微调 #多轮对话

下载量 468

发布时间 : 4/18/2024

模型简介

Meta发布的Llama 3 70B大语言模型的指令调优版本，适用于对话和指令跟随任务

模型特点

GGUF格式优化

采用新一代GGUF格式，相比GGML具有更好的扩展性和元数据支持

大容量上下文

支持长达8192 tokens的上下文窗口，适合处理长文档和复杂对话

多平台兼容

支持多种客户端和库，可在不同硬件平台上运行

高效推理

提供多种量化版本，平衡模型精度和运行效率

模型能力

文本生成

对话系统

指令理解与执行

内容创作

代码生成

知识问答

使用案例

智能助手

个人AI助手

用于日常问答、日程管理和信息查询

提供准确、自然的对话体验

内容创作

文章撰写

辅助写作各类文章和报告

生成连贯、有逻辑性的文本

教育

学习辅导

解答学生问题，解释复杂概念

提供个性化的学习支持

🚀 Llama 3 70B Instruct - GGUF

本项目包含了 Meta公司的Llama 3 70B Instruct 模型的GGUF格式文件，旨在为用户提供更便捷、高效的模型使用体验。

🚀 快速开始

模型信息

属性	详情
模型创建者	Meta
原始模型	Llama 3 70B Instruct
模型类型	llama
许可证	llama2

关于GGUF

GGUF是由llama.cpp团队在2023年8月21日推出的一种新格式，它取代了不再受llama.cpp支持的GGML格式。GGUF相较于GGML具有诸多优势，例如更好的分词功能、对特殊标记的支持，还支持元数据，并且设计为可扩展的。

以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp：GGUF的源项目，提供命令行界面和服务器选项。
text-generation-webui：最广泛使用的Web界面，具有许多功能和强大的扩展，支持GPU加速。
KoboldCpp：功能齐全的Web界面，支持所有平台和GPU架构的GPU加速，尤其适合讲故事。
LM Studio：适用于Windows和macOS（Silicon）的易用且强大的本地图形用户界面，支持GPU加速。
LoLLMS Web UI：一个很棒的Web界面，具有许多有趣和独特的功能，包括一个完整的模型库，便于选择模型。
Faraday.dev：适用于Windows和macOS（Silicon和Intel）的有吸引力且易于使用的基于角色的聊天图形用户界面，支持GPU加速。
ctransformers：一个支持GPU加速、LangChain和OpenAI兼容AI服务器的Python库。
llama-cpp-python：一个支持GPU加速、LangChain和OpenAI兼容API服务器的Python库。
candle：一个专注于性能的Rust机器学习框架，包括GPU支持，并且易于使用。

📦 安装指南

如何下载GGUF文件

⚠️ 重要提示

手动下载者请注意：几乎不需要克隆整个仓库！这里提供了多种不同的量化格式，大多数用户只需要选择并下载单个文件。

以下客户端/库会自动为你下载模型，并提供可用模型列表供你选择：

LM Studio
LoLLMS Web UI
Faraday.dev

在`text-generation-webui`中下载

在“Download Model”下，你可以输入模型仓库地址：PawanKrd/Llama-3-70B-Instruct-GGUF，然后在下方输入要下载的具体文件名，例如：llama-3-70b-instruct.Q4_K_M.gguf，最后点击“Download”。

在命令行下载（可同时下载多个文件）

建议使用huggingface-hub Python库：

pip3 install huggingface-hub>=0.17.1

然后，你可以使用以下命令将任何单个模型文件高速下载到当前目录：

huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

更高级的huggingface-cli下载用法

你还可以使用通配符一次下载多个文件：

huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF --local-dir . --local-dir-use-symlinks False --include='*Q4_K*gguf'

有关使用huggingface-cli下载的更多文档，请参阅：HF -> Hub Python Library -> Download files -> Download from the CLI。

要在高速连接（1Gbit/s或更高）上加速下载，请安装hf_transfer：

pip3 install hf_transfer

并将环境变量HF_HUB_ENABLE_HF_TRANSFER设置为1：

HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1 huggingface-cli download PawanKrd/Llama-3-70B-Instruct-GGUF llama-3-70b-instruct.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

Windows命令行用户：在运行下载命令之前使用set HUGGINGFACE_HUB_ENABLE_HF_TRANSFER=1。

💻 使用示例

在`llama.cpp`中运行

确保你使用的llama.cpp版本是提交号为 d0cee0d36d5be95a0d9088b674dbb27354107221 或更高的版本。

./main -ngl 32 -m llama-3-70b-instruct.Q4_K_M.gguf --color -c 8192 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "{prompt}"

将-ngl 32更改为要卸载到GPU的层数。如果没有GPU加速，请删除该参数。
将-c 8192更改为所需的序列长度。对于扩展序列模型（例如8K、16K、32K），必要的RoPE缩放参数会从GGUF文件中读取，并由llama.cpp自动设置。

如果你想进行聊天式对话，将-p <PROMPT>参数替换为-i -ins。

有关其他参数及其用法，请参考 llama.cpp文档。

在`text-generation-webui`中运行

更多说明请参考：text-generation-webui/docs/llama.cpp.md。

从Python代码中运行

你可以使用 llama-cpp-python 或 ctransformers 库从Python中使用GGUF模型。

使用ctransformers从Python加载此模型

首先安装包

# 无GPU加速的基础ctransformers
pip install ctransformers>=0.2.24
# 或使用CUDA GPU加速
pip install ctransformers[cuda]>=0.2.24
# 或使用ROCm GPU加速
CT_HIPBLAS=1 pip install ctransformers>=0.2.24 --no-binary ctransformers
# 或为macOS系统使用Metal GPU加速
CT_METAL=1 pip install ctransformers>=0.2.24 --no-binary ctransformers

加载GGUF模型的简单示例代码

from ctransformers import AutoModelForCausalLM

# 将gpu_layers设置为要卸载到GPU的层数。如果系统上没有GPU加速，请将其设置为0。
llm = AutoModelForCausalLM.from_pretrained("PawanKrd/Llama-3-70B-Instruct-GGUF", model_file="llama-3-70b-instruct.Q4_K_M.gguf", model_type="llama", gpu_layers=50)

print(llm("AI is going to"))