🚀 Open Cabrita 3B - GGUF
Open Cabrita 3B - GGUF 是基于 Open Cabrita 3B 模型量化后的版本,提供了多种量化文件,适用于不同的使用场景,能在 llama.cpp 等工具中运行。
🚀 快速开始
你可以使用以下命令在 llama.cpp 中运行该模型:
./main -m ./models/open-cabrita3b/opencabrita3b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta: "
若要理解参数含义,请查看 llama.cpp 文档。
你还可以在 Google Colab 上免费体验:Open_Cabrita_llamacpp_5_1.ipynb
✨ 主要特性
- 提供多种量化文件,可根据需求选择不同的量化方法和比特数,以平衡精度和资源使用。
- 采用新的 GGUF 格式,该格式是可扩展且面向未来的,能存储更多模型元信息,还包含显著改进的分词代码。
- 支持多种客户端和库,方便在不同环境中使用。
📦 安装指南
文档未提供具体安装步骤,可参考各支持的客户端和库的官方文档进行安装,如 llama.cpp、text-generation-webui 等。
💻 使用示例
基础用法
./main -m ./models/open-cabrita3b/opencabrita3b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta: "
高级用法
可根据 llama.cpp 文档 调整命令中的参数,以满足不同的使用需求。
📚 详细文档
模型信息
包含文件
注意:上述 RAM 值未考虑 GPU 卸载。如果将层卸载到 GPU,将减少 RAM 使用并使用 VRAM。
关于 GGUF 格式
GGUF 是 llama.cpp 团队在 2023 年 8 月 21 日引入的新格式,它是 GGML 的替代品,后者已不再被 llama.cpp 支持。
GGUF 的主要优点是它是一个可扩展且面向未来的格式,能将更多关于模型的信息作为元数据存储。它还包含显著改进的分词代码,首次实现了对特殊标记的完全支持。这有望提高性能,特别是对于使用新特殊标记并实现自定义提示模型的模型。
以下是已知支持 GGUF 的客户端和库列表:
- llama.cpp。
- text-generation-webui,最广泛使用的 Web 界面。通过 ctransformers 后端支持 GPU 加速的 GGUF - llama-cpp-python 后端也即将支持。
- KoboldCpp,从 1.41 版本开始支持 GGUF!一个强大的 GGML Web 界面,具有全 GPU 加速。特别适合讲故事。
- LM Studio,0.2.2 及更高版本支持 GGUF。一个功能齐全的本地 GUI,在 Windows(NVIDIA 和 AMD)和 macOS 上都支持 GPU 加速。
- LoLLMS Web UI,现在应该可以使用,选择 c_transformers 后端。一个很棒的 Web 界面,有很多有趣的功能。支持 CUDA GPU 加速。
- ctransformers,从 0.2.24 版本开始支持 GGUF!一个支持 GPU 加速、LangChain 和兼容 OpenAI 的 AI 服务器的 Python 库。
- llama-cpp-python,从 0.1.79 版本开始支持 GGUF。一个支持 GPU 加速、LangChain 和兼容 OpenAI 的 API 服务器的 Python 库。
- candle,8 月 22 日添加了对 GGUF 的支持。Candle 是一个注重性能的 Rust ML 框架,包括 GPU 支持和易用性。
- LocalAI,8 月 23 日添加了对 GGUF 的支持。LocalAI 为大语言模型和图像生成模型提供 REST API。
模板
### Instrução:
{prompt}
### Resposta:
🔧 技术细节
GGUF 格式是 llama.cpp 团队在 2023 年 8 月 21 日引入的新格式,它是可扩展且面向未来的,能存储更多模型元信息。其包含显著改进的分词代码,首次实现了对特殊标记的完全支持,这有助于提高使用新特殊标记和自定义提示模型的性能。
📄 许可证
本项目采用 Apache-2.0 许可证。