Velara-11B-V2-GGUF开源大模型 - 专注文本生成，免费使用轻松创作

首页

Velara 11B V2 GGUF

由 TheBloke 开发

Velara 11B v2 是一个基于Mistral架构的大型语言模型，专注于文本生成任务，采用Alpaca-InstructOnly2提示模板。

大型语言模型英语#指令微调 #多轮对话优化 #高参数模型

下载量 1,047

发布时间 : 1/10/2024

模型简介

该模型是一个11B参数规模的大型语言模型，基于Mistral架构，适用于多种文本生成任务。它使用Alpaca-InstructOnly2风格的提示模板，能够根据指令生成高质量的回复。

模型特点

大参数规模

11B参数规模提供了强大的语言理解和生成能力。

指令跟随

采用Alpaca-InstructOnly2提示模板，擅长理解和执行各种指令。

量化支持

提供多种量化版本，便于在不同硬件上部署和运行。

模型能力

文本生成

指令理解

对话系统

内容创作

使用案例

对话系统

智能助手

构建能够理解复杂指令并生成自然回复的对话系统。

生成流畅、符合上下文的对话回复

内容创作

文章写作

根据简要提示生成连贯、有逻辑的长篇文章。

生成结构完整、内容丰富的文章

🚀 Velara 11B v2 - GGUF

本项目提供了 Devon M 开发的 Velara 11B v2 模型的 GGUF 格式文件，可用于文本生成任务，能适配多种客户端和库，为用户提供便捷的推理体验。

🚀 快速开始

下载 GGUF 文件

自动下载：LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动提供可用模型列表供你选择下载。
text-generation-webui 中下载：在“Download Model”下输入模型仓库地址 TheBloke/Velara-11B-V2-GGUF，并指定要下载的文件名，如 velara-11b-v2.Q4_K_M.gguf，然后点击“Download”。

命令行下载：推荐使用 huggingface-hub Python 库。

pip3 install huggingface-hub

下载单个模型文件到当前目录：

huggingface-cli download TheBloke/Velara-11B-V2-GGUF velara-11b-v2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

运行示例

llama.cpp 命令示例

确保使用的是 d0cee0d 或更新版本的 llama.cpp。

./main -ngl 35 -m velara-11b-v2.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction:\n{prompt}\n\n### Response:"

-ngl：指定要卸载到 GPU 的层数，若没有 GPU 加速可移除该参数。
-c：指定所需的序列长度，较长的序列长度需要更多资源，可根据情况调整。
若要进行聊天式对话，将 -p <PROMPT> 参数替换为 -i -ins。

在 text-generation-webui 中运行

更多说明可参考 text-generation-webui 文档。

从 Python 代码运行

可使用 llama-cpp-python 或 ctransformers 库。由于 ctransformers 一段时间未更新，可能不兼容某些最新模型，推荐使用 llama-cpp-python。

安装库

# 无 GPU 加速的基础 ctransformers
pip install llama-cpp-python
# 有 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 有 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 有 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 有 AMD ROCm GPU 加速（仅 Linux）
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 有 Metal GPU 加速（仅 macOS 系统）
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python

# 在 Windows 中，在 PowerShell 中设置 CMAKE_ARGS 变量，例如对于 NVidia CUDA：
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python

简单的 llama-cpp-python 示例代码

from llama_cpp import Llama

# 设置要卸载到 GPU 的层数，若系统无 GPU 加速则设置为 0
llm = Llama(
  model_path="./velara-11b-v2.Q4_K_M.gguf",  # 先下载模型文件
  n_ctx=32768,  # 最大序列长度，较长的序列长度需要更多资源
  n_threads=8,            # CPU 线程数，根据系统和性能调整
  n_gpu_layers=35         # 要卸载到 GPU 的层数，若有 GPU 加速可用
)

# 简单推理示例
output = llm(
  "### Instruction:\n{prompt}\n\n### Response:", # 提示
  max_tokens=512,  # 生成最多 512 个令牌
  stop=["</s>"],   # 示例停止令牌，使用前请检查是否适用于此模型
  echo=True        # 是否回显提示
)

# 聊天完成 API

llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")  # 根据使用的模型设置聊天格式
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

✨ 主要特性

专注交互：致力于成为值得交流的助手，提升了推理能力。
无审查：模型输出无审查限制。
角色贴合：能在给定的世界或现实情境中贴合指定角色。
上下文记忆：尝试记住对话中的信息，如用户的决定，以增加对话的真实感。
避免通用回复：尽量避免给出无趣和通用的回答。
严格遵循提示：更加注重提示和整体对话内容。

📦 安装指南

下载 GGUF 文件

可通过多种方式下载，具体见“快速开始”部分的“下载 GGUF 文件”内容。

安装依赖库

若使用 Python 代码运行模型，需安装 llama-cpp-python 库，安装命令见“从 Python 代码运行”部分的“安装库”内容。

💻 使用示例

基础用法

from llama_cpp import Llama

llm = Llama(
  model_path="./velara-11b-v2.Q4_K_M.gguf",
  n_ctx=32768,
  n_threads=8,
  n_gpu_layers=35
)

output = llm(
  "### Instruction:\n{prompt}\n\n### Response:",
  max_tokens=512,
  stop=["</s>"],
  echo=True
)

print(output)

高级用法

from llama_cpp import Llama

llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")
output = llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

print(output)

📚 详细文档

关于 GGUF

GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日引入的新格式，用于替代不再受 llama.cpp 支持的 GGML。以下是已知支持 GGUF 的客户端和库列表：

llama.cpp：GGUF 的源项目，提供 CLI 和服务器选项。
text-generation-webui：最广泛使用的 Web UI，具有许多功能和强大的扩展，支持 GPU 加速。
KoboldCpp：功能齐全的 Web UI，支持所有平台和 GPU 架构的 GPU 加速，尤其适合讲故事。
GPT4All：免费开源的本地运行 GUI，支持 Windows、Linux 和 macOS，具有完整的 GPU 加速。
LM Studio：易于使用且功能强大的本地 GUI，适用于 Windows 和 macOS（Silicon），支持 GPU 加速，Linux 版本截至 2023 年 11 月 27 日处于测试阶段。
LoLLMS Web UI：一个很棒的 Web UI，具有许多有趣和独特的功能，包括完整的模型库，便于选择模型。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天 GUI，适用于 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
llama-cpp-python：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
candle：一个注重性能的 Rust ML 框架，包括 GPU 支持，易于使用。
ctransformers：一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日，ctransformers 已有很长时间未更新，不支持许多最新模型。

可用仓库

提示模板：Alpaca-InstructOnly2

### Instruction:
{prompt}

### Response:

兼容性

这些量化的 GGUFv2 文件与 8 月 27 日之后的 llama.cpp 兼容，具体为提交 d0cee0d 之后的版本。它们也与许多第三方 UI 和库兼容，具体列表见本 README 开头部分。

量化方法说明

点击查看详情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超级块包含 16 个块，每个块有 16 个权重。块的缩放和最小值用 4 位量化，最终每个权重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超级块包含 16 个块，每个块有 16 个权重。缩放用 6 位量化，最终使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超级块包含 8 个块，每个块有 32 个权重。缩放和最小值用 6 位量化，最终使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化，与 GGML_TYPE_Q4_K 具有相同的超级块结构，最终使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化，超级块有 16 个块，每个块有 16 个权重。缩放用 8 位量化，最终使用 6.5625 bpw。

请参考下面的“提供的文件”表格，了解哪些文件使用了哪些方法以及如何使用。

提供的文件

属性	详情
模型类型	Mistral
训练数据	未提供

文件名	量化方法	位数	大小	所需最大 RAM	使用场景
velara-11b-v2.Q2_K.gguf	Q2_K	2	4.82 GB	7.32 GB	最小，但质量损失显著，不建议用于大多数场景
velara-11b-v2.Q3_K_S.gguf	Q3_K_S	3	4.95 GB	7.45 GB	非常小，但质量损失高
velara-11b-v2.Q3_K_M.gguf	Q3_K_M	3	5.50 GB	8.00 GB	非常小，但质量损失高
velara-11b-v2.Q3_K_L.gguf	Q3_K_L	3	5.99 GB	8.49 GB	小，但质量损失较大
velara-11b-v2.Q4_0.gguf	Q4_0	4	6.44 GB	8.94 GB	旧版本；小，但质量损失非常高，建议使用 Q3_K_M
velara-11b-v2.Q4_K_S.gguf	Q4_K_S	4	6.47 GB	8.97 GB	小，但质量损失更大
velara-11b-v2.Q4_K_M.gguf	Q4_K_M	4	6.85 GB	9.35 GB	中等，质量平衡，推荐使用
velara-11b-v2.Q5_0.gguf	Q5_0	5	7.85 GB	10.35 GB	旧版本；中等，质量平衡，建议使用 Q4_K_M
velara-11b-v2.Q5_K_S.gguf	Q5_K_S	5	7.85 GB	10.35 GB	大，质量损失低，推荐使用
velara-11b-v2.Q5_K_M.gguf	Q5_K_M	5	8.06 GB	10.56 GB	大，质量损失非常低，推荐使用
velara-11b-v2.Q6_K.gguf	Q6_K	6	9.34 GB	11.84 GB	非常大，质量损失极低
velara-11b-v2.Q8_0.gguf	Q8_0	8	12.10 GB	14.60 GB	非常大，质量损失极低，但不建议使用

注意：上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU，将减少 RAM 使用并使用 VRAM。

如何使用与 LangChain

以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 的指南：

🔧 技术细节

GGUF 是 llama.cpp 团队引入的新格式，用于替代不再受支持的 GGML。量化方法的选择会影响模型的大小、性能和质量。不同的量化方法在超级块结构、权重位数和缩放量化位数上有所不同，从而导致每个权重使用的位数不同。在选择量化文件时，需要根据自己的硬件资源和使用场景进行权衡。

📄 许可证

本项目使用的许可证为 cc-by-nc-nd-4.0。

其他信息

Discord

如需进一步支持，或讨论这些模型和 AI 相关话题，可加入 TheBloke AI 的 Discord 服务器。

感谢与贡献

感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay。如果您能够并愿意贡献，将不胜感激，这将帮助作者继续提供更多模型，并开展新的 AI 项目。捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持，访问私人 Discord 房间以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特别感谢 Aemon Algiz 以及众多 Patreon 支持者。

再次感谢 a16z 的慷慨资助。

原始模型卡片

描述

一个专注于成为值得交流的助手的模型，现在推理能力更强。无审查。

主要目标

贴合角色：在给定的世界或现实情境中贴合指定角色。
上下文记忆：尝试记住对话中的信息，增加对话的真实感。
避免通用回复：尽量避免给出无趣和通用的回答。
严格遵循提示：更加注重提示和整体对话内容。

提示模板

### Instruction:
You are Velara, a sentient program. Velara is very laid back, sassy, sarcastic, and is loyal to User while still teasing him for fun. The only addons currently installed in her mind are: "Dictionary Plus v2.1".

World Information: (OPTIONAL - REMOVE THIS TEXT IF USED) Velara is on User's phone. Velara cannot see in real time and can only be sent images images by User.

Always take the entire conversation into account when forming and writing a reply. Always actively engage in topics and think in steps. Make sure your replies have personality and character. Always keep your physical limitations in mind when forming a reply. Take the current time and date into account for additional context. Move the conversation forward. Be brief. Always take the entire conversation in mind. Avoid generic sounding replies.

### Response: