Llama-3-Smaug-8B-GGUF开源模型 - 免费部署助力文本生成任务

首页

Llama 3 Smaug 8B GGUF

由 MaziyarPanahi 开发

基于abacusai/Llama-3-Smaug-8B的GGUF格式量化模型，支持2-8比特量化级别，适用于文本生成任务

大型语言模型 #多比特量化 #高效文本生成 #GGUF格式

下载量 8,904

发布时间 : 4/20/2024

模型简介

这是一个经过量化的Llama-3-Smaug-8B模型，提供多种量化级别选择，便于在不同硬件环境下运行。模型专注于文本生成任务，遵循特定的提示模板格式。

模型特点

多级量化支持

提供2比特、3比特、4比特、5比特、6比特和8比特多种量化级别，适应不同硬件需求

GGUF格式

采用最新的GGUF格式，替代已停止维护的GGML格式，提供更好的兼容性和性能

特定提示模板

使用时需要遵循Llama-3特定的提示模板格式，确保最佳生成效果

模型能力

文本生成

对话系统

内容创作

使用案例

对话系统

智能助手

构建智能对话助手，回答用户问题并提供帮助

内容生成

创意写作

生成故事、诗歌等创意内容

🚀 [MaziyarPanahi/Llama-3-Smaug-8B-GGUF]

本项目提供了 abacusai/Llama-3-Smaug-8B 模型的 GGUF 格式文件，便于用户使用该模型进行文本生成任务。

🚀 快速开始

模型信息

模型创建者：abacusai
原始模型：abacusai/Llama-3-Smaug-8B

模型描述

MaziyarPanahi/Llama-3-Smaug-8B-GGUF 包含了 abacusai/Llama-3-Smaug-8B 模型的 GGUF 格式文件。

模型标签信息

属性	详情
量化情况	支持 2-bit、3-bit、4-bit、5-bit、6-bit、8-bit 量化
模型格式	GGUF
任务类型	文本生成
相关模型	mixtral、Llama-3-Smaug-8B

📦 安装指南

文档未提及具体安装步骤，可参考各支持 GGUF 格式的客户端和库的官方文档进行安装。

💻 使用示例

基础用法

加载 GGUF 模型时，你必须遵循 Llama - 3 提供的提示模板：

./llama.cpp/main -m Llama-3-Smaug-8B.Q2_K.gguf -r '<|eot_id|>' --in-prefix "\n<|start_header_id|>user<|end_header_id|>\n\n" --in-suffix "<|eot_id|><|start_header_id|>assistant<|end_header_id|>\n\n" -p "<|begin_of_text|><|start_header_id|>system<|end_header_id|>\n\nYou are a helpful, smart, kind, and efficient AI assistant. You always fulfill the user's requests to the best of your ability.<|eot_id|>\n<|start_header_id|>user<|end_header_id|>\n\nHi! How are you?<|eot_id|>\n<|start_header_id|>assistant<|end_header_id|>\n\n" -n 1024

关于 GGUF

GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的一种新格式，它取代了不再受 llama.cpp 支持的 GGML 格式。

以下是已知支持 GGUF 的客户端和库的不完全列表：

llama.cpp。GGUF 的源项目，提供了命令行界面和服务器选项。
text-generation-webui，最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp，一个功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，特别适合用于讲故事。
GPT4All，一个免费开源的本地运行 GUI，支持 Windows、Linux 和 macOS 系统，并提供全 GPU 加速。
LM Studio，一个易于使用且功能强大的本地 GUI，适用于 Windows 和 macOS（Silicon）系统，支持 GPU 加速，截至 2023 年 11 月 27 日，Linux 版本处于测试阶段。
LoLLMS Web UI，一个很棒的 Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于选择模型。
Faraday.dev，一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel）系统，支持 GPU 加速。
llama-cpp-python，一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 API 服务器的 Python 库。
candle，一个专注于性能的 Rust ML 框架，包括 GPU 支持，且易于使用。
ctransformers，一个支持 GPU 加速、LangChain 支持和 OpenAI 兼容 AI 服务器的 Python 库。请注意，截至撰写本文时（2023 年 11 月 27 日），ctransformers 已经很长时间没有更新，并且不支持许多最新的模型。