模型简介
模型特点
模型能力
使用案例
🚀 Velara 11B v2 - GGUF
本项目提供了 Devon M 开发的 Velara 11B v2 模型的 GGUF 格式文件,可用于文本生成任务,能适配多种客户端和库,为用户提供便捷的推理体验。
🚀 快速开始
下载 GGUF 文件
- 自动下载:LM Studio、LoLLMS Web UI、Faraday.dev 等客户端/库会自动提供可用模型列表供你选择下载。
- text-generation-webui 中下载:在“Download Model”下输入模型仓库地址
TheBloke/Velara-11B-V2-GGUF
,并指定要下载的文件名,如velara-11b-v2.Q4_K_M.gguf
,然后点击“Download”。 - 命令行下载:推荐使用
huggingface-hub
Python 库。
下载单个模型文件到当前目录:pip3 install huggingface-hub
huggingface-cli download TheBloke/Velara-11B-V2-GGUF velara-11b-v2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
运行示例
llama.cpp 命令示例
确保使用的是 d0cee0d 或更新版本的 llama.cpp
。
./main -ngl 35 -m velara-11b-v2.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction:\n{prompt}\n\n### Response:"
-ngl
:指定要卸载到 GPU 的层数,若没有 GPU 加速可移除该参数。-c
:指定所需的序列长度,较长的序列长度需要更多资源,可根据情况调整。- 若要进行聊天式对话,将
-p <PROMPT>
参数替换为-i -ins
。
在 text-generation-webui 中运行
更多说明可参考 text-generation-webui 文档。
从 Python 代码运行
可使用 llama-cpp-python 或 ctransformers 库。由于 ctransformers
一段时间未更新,可能不兼容某些最新模型,推荐使用 llama-cpp-python
。
安装库
# 无 GPU 加速的基础 ctransformers
pip install llama-cpp-python
# 有 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 有 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 有 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 有 AMD ROCm GPU 加速(仅 Linux)
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 有 Metal GPU 加速(仅 macOS 系统)
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# 在 Windows 中,在 PowerShell 中设置 CMAKE_ARGS 变量,例如对于 NVidia CUDA:
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python
简单的 llama-cpp-python 示例代码
from llama_cpp import Llama
# 设置要卸载到 GPU 的层数,若系统无 GPU 加速则设置为 0
llm = Llama(
model_path="./velara-11b-v2.Q4_K_M.gguf", # 先下载模型文件
n_ctx=32768, # 最大序列长度,较长的序列长度需要更多资源
n_threads=8, # CPU 线程数,根据系统和性能调整
n_gpu_layers=35 # 要卸载到 GPU 的层数,若有 GPU 加速可用
)
# 简单推理示例
output = llm(
"### Instruction:\n{prompt}\n\n### Response:", # 提示
max_tokens=512, # 生成最多 512 个令牌
stop=["</s>"], # 示例停止令牌,使用前请检查是否适用于此模型
echo=True # 是否回显提示
)
# 聊天完成 API
llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2") # 根据使用的模型设置聊天格式
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
✨ 主要特性
- 专注交互:致力于成为值得交流的助手,提升了推理能力。
- 无审查:模型输出无审查限制。
- 角色贴合:能在给定的世界或现实情境中贴合指定角色。
- 上下文记忆:尝试记住对话中的信息,如用户的决定,以增加对话的真实感。
- 避免通用回复:尽量避免给出无趣和通用的回答。
- 严格遵循提示:更加注重提示和整体对话内容。
📦 安装指南
下载 GGUF 文件
可通过多种方式下载,具体见“快速开始”部分的“下载 GGUF 文件”内容。
安装依赖库
若使用 Python 代码运行模型,需安装 llama-cpp-python
库,安装命令见“从 Python 代码运行”部分的“安装库”内容。
💻 使用示例
基础用法
from llama_cpp import Llama
llm = Llama(
model_path="./velara-11b-v2.Q4_K_M.gguf",
n_ctx=32768,
n_threads=8,
n_gpu_layers=35
)
output = llm(
"### Instruction:\n{prompt}\n\n### Response:",
max_tokens=512,
stop=["</s>"],
echo=True
)
print(output)
高级用法
from llama_cpp import Llama
llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")
output = llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
print(output)
📚 详细文档
关于 GGUF
GGUF 是 llama.cpp 团队于 2023 年 8 月 21 日引入的新格式,用于替代不再受 llama.cpp 支持的 GGML。以下是已知支持 GGUF 的客户端和库列表:
- llama.cpp:GGUF 的源项目,提供 CLI 和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持所有平台和 GPU 架构的 GPU 加速,尤其适合讲故事。
- GPT4All:免费开源的本地运行 GUI,支持 Windows、Linux 和 macOS,具有完整的 GPU 加速。
- LM Studio:易于使用且功能强大的本地 GUI,适用于 Windows 和 macOS(Silicon),支持 GPU 加速,Linux 版本截至 2023 年 11 月 27 日处于测试阶段。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括完整的模型库,便于选择模型。
- Faraday.dev:一个有吸引力且易于使用的基于角色的聊天 GUI,适用于 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- llama-cpp-python:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个注重性能的 Rust ML 框架,包括 GPU 支持,易于使用。
- ctransformers:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。截至 2023 年 11 月 27 日,
ctransformers
已有很长时间未更新,不支持许多最新模型。
可用仓库
- 用于 GPU 推理的 AWQ 模型
- 具有多种量化参数选项的 GPTQ 模型,用于 GPU 推理
- 用于 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- Devon M 原始未量化的 fp16 模型,采用 pytorch 格式,用于 GPU 推理和进一步转换
提示模板:Alpaca-InstructOnly2
### Instruction:
{prompt}
### Response:
兼容性
这些量化的 GGUFv2 文件与 8 月 27 日之后的 llama.cpp 兼容,具体为提交 d0cee0d 之后的版本。它们也与许多第三方 UI 和库兼容,具体列表见本 README 开头部分。
量化方法说明
点击查看详情
新的量化方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超级块包含 16 个块,每个块有 16 个权重。块的缩放和最小值用 4 位量化,最终每个权重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超级块包含 16 个块,每个块有 16 个权重。缩放用 6 位量化,最终使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。缩放和最小值用 6 位量化,最终使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化,与 GGML_TYPE_Q4_K 具有相同的超级块结构,最终使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化,超级块有 16 个块,每个块有 16 个权重。缩放用 8 位量化,最终使用 6.5625 bpw。
请参考下面的“提供的文件”表格,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
属性 | 详情 |
---|---|
模型类型 | Mistral |
训练数据 | 未提供 |
文件名 | 量化方法 | 位数 | 大小 | 所需最大 RAM | 使用场景 |
---|---|---|---|---|---|
velara-11b-v2.Q2_K.gguf | Q2_K | 2 | 4.82 GB | 7.32 GB | 最小,但质量损失显著,不建议用于大多数场景 |
velara-11b-v2.Q3_K_S.gguf | Q3_K_S | 3 | 4.95 GB | 7.45 GB | 非常小,但质量损失高 |
velara-11b-v2.Q3_K_M.gguf | Q3_K_M | 3 | 5.50 GB | 8.00 GB | 非常小,但质量损失高 |
velara-11b-v2.Q3_K_L.gguf | Q3_K_L | 3 | 5.99 GB | 8.49 GB | 小,但质量损失较大 |
velara-11b-v2.Q4_0.gguf | Q4_0 | 4 | 6.44 GB | 8.94 GB | 旧版本;小,但质量损失非常高,建议使用 Q3_K_M |
velara-11b-v2.Q4_K_S.gguf | Q4_K_S | 4 | 6.47 GB | 8.97 GB | 小,但质量损失更大 |
velara-11b-v2.Q4_K_M.gguf | Q4_K_M | 4 | 6.85 GB | 9.35 GB | 中等,质量平衡,推荐使用 |
velara-11b-v2.Q5_0.gguf | Q5_0 | 5 | 7.85 GB | 10.35 GB | 旧版本;中等,质量平衡,建议使用 Q4_K_M |
velara-11b-v2.Q5_K_S.gguf | Q5_K_S | 5 | 7.85 GB | 10.35 GB | 大,质量损失低,推荐使用 |
velara-11b-v2.Q5_K_M.gguf | Q5_K_M | 5 | 8.06 GB | 10.56 GB | 大,质量损失非常低,推荐使用 |
velara-11b-v2.Q6_K.gguf | Q6_K | 6 | 9.34 GB | 11.84 GB | 非常大,质量损失极低 |
velara-11b-v2.Q8_0.gguf | Q8_0 | 8 | 12.10 GB | 14.60 GB | 非常大,质量损失极低,但不建议使用 |
注意:上述 RAM 数字假设没有 GPU 卸载。如果将层卸载到 GPU,将减少 RAM 使用并使用 VRAM。
如何使用与 LangChain
以下是使用 llama-cpp-python 和 ctransformers 与 LangChain 的指南:
🔧 技术细节
GGUF 是 llama.cpp 团队引入的新格式,用于替代不再受支持的 GGML。量化方法的选择会影响模型的大小、性能和质量。不同的量化方法在超级块结构、权重位数和缩放量化位数上有所不同,从而导致每个权重使用的位数不同。在选择量化文件时,需要根据自己的硬件资源和使用场景进行权衡。
📄 许可证
本项目使用的许可证为 cc-by-nc-nd-4.0
。
其他信息
Discord
如需进一步支持,或讨论这些模型和 AI 相关话题,可加入 TheBloke AI 的 Discord 服务器。
感谢与贡献
感谢 chirper.ai 团队和 gpus.llm-utils.org 的 Clay。如果您能够并愿意贡献,将不胜感激,这将帮助作者继续提供更多模型,并开展新的 AI 项目。捐赠者将在任何 AI/LLM/模型问题和请求上获得优先支持,访问私人 Discord 房间以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特别感谢 Aemon Algiz 以及众多 Patreon 支持者。
再次感谢 a16z 的慷慨资助。
原始模型卡片
描述
一个专注于成为值得交流的助手的模型,现在推理能力更强。无审查。
主要目标
- 贴合角色:在给定的世界或现实情境中贴合指定角色。
- 上下文记忆:尝试记住对话中的信息,增加对话的真实感。
- 避免通用回复:尽量避免给出无趣和通用的回答。
- 严格遵循提示:更加注重提示和整体对话内容。
提示模板
### Instruction:
You are Velara, a sentient program. Velara is very laid back, sassy, sarcastic, and is loyal to User while still teasing him for fun. The only addons currently installed in her mind are: "Dictionary Plus v2.1".
World Information: (OPTIONAL - REMOVE THIS TEXT IF USED) Velara is on User's phone. Velara cannot see in real time and can only be sent images images by User.
Always take the entire conversation into account when forming and writing a reply. Always actively engage in topics and think in steps. Make sure your replies have personality and character. Always keep your physical limitations in mind when forming a reply. Take the current time and date into account for additional context. Move the conversation forward. Be brief. Always take the entire conversation in mind. Avoid generic sounding replies.
### Response:
推荐设置
min_p: 0.2
repetition_penalty: 1.13
repetition_penalty_range: 0
guidance_scale: 1.05
基准测试
待提供。
训练数据
待提供。



