🚀 Open Cabrita 3B - GGUF
Open Cabrita 3B - GGUF 是基於 Open Cabrita 3B 模型量化後的版本,提供了多種量化文件,適用於不同的使用場景,能在 llama.cpp 等工具中運行。
🚀 快速開始
你可以使用以下命令在 llama.cpp 中運行該模型:
./main -m ./models/open-cabrita3b/opencabrita3b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta: "
若要理解參數含義,請查看 llama.cpp 文檔。
你還可以在 Google Colab 上免費體驗:Open_Cabrita_llamacpp_5_1.ipynb
✨ 主要特性
- 提供多種量化文件,可根據需求選擇不同的量化方法和比特數,以平衡精度和資源使用。
- 採用新的 GGUF 格式,該格式是可擴展且面向未來的,能存儲更多模型元信息,還包含顯著改進的分詞代碼。
- 支持多種客戶端和庫,方便在不同環境中使用。
📦 安裝指南
文檔未提供具體安裝步驟,可參考各支持的客戶端和庫的官方文檔進行安裝,如 llama.cpp、text-generation-webui 等。
💻 使用示例
基礎用法
./main -m ./models/open-cabrita3b/opencabrita3b-q5_1.gguf --color --temp 0.5 -n 256 -p "### Instrução: {comando} ### Resposta: "
高級用法
可根據 llama.cpp 文檔 調整命令中的參數,以滿足不同的使用需求。
📚 詳細文檔
模型信息
包含文件
注意:上述 RAM 值未考慮 GPU 卸載。如果將層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
關於 GGUF 格式
GGUF 是 llama.cpp 團隊在 2023 年 8 月 21 日引入的新格式,它是 GGML 的替代品,後者已不再被 llama.cpp 支持。
GGUF 的主要優點是它是一個可擴展且面向未來的格式,能將更多關於模型的信息作為元數據存儲。它還包含顯著改進的分詞代碼,首次實現了對特殊標記的完全支持。這有望提高性能,特別是對於使用新特殊標記並實現自定義提示模型的模型。
以下是已知支持 GGUF 的客戶端和庫列表:
- llama.cpp。
- text-generation-webui,最廣泛使用的 Web 界面。通過 ctransformers 後端支持 GPU 加速的 GGUF - llama-cpp-python 後端也即將支持。
- KoboldCpp,從 1.41 版本開始支持 GGUF!一個強大的 GGML Web 界面,具有全 GPU 加速。特別適合講故事。
- LM Studio,0.2.2 及更高版本支持 GGUF。一個功能齊全的本地 GUI,在 Windows(NVIDIA 和 AMD)和 macOS 上都支持 GPU 加速。
- LoLLMS Web UI,現在應該可以使用,選擇 c_transformers 後端。一個很棒的 Web 界面,有很多有趣的功能。支持 CUDA GPU 加速。
- ctransformers,從 0.2.24 版本開始支持 GGUF!一個支持 GPU 加速、LangChain 和兼容 OpenAI 的 AI 服務器的 Python 庫。
- llama-cpp-python,從 0.1.79 版本開始支持 GGUF。一個支持 GPU 加速、LangChain 和兼容 OpenAI 的 API 服務器的 Python 庫。
- candle,8 月 22 日添加了對 GGUF 的支持。Candle 是一個注重性能的 Rust ML 框架,包括 GPU 支持和易用性。
- LocalAI,8 月 23 日添加了對 GGUF 的支持。LocalAI 為大語言模型和圖像生成模型提供 REST API。
模板
### Instrução:
{prompt}
### Resposta:
🔧 技術細節
GGUF 格式是 llama.cpp 團隊在 2023 年 8 月 21 日引入的新格式,它是可擴展且面向未來的,能存儲更多模型元信息。其包含顯著改進的分詞代碼,首次實現了對特殊標記的完全支持,這有助於提高使用新特殊標記和自定義提示模型的性能。
📄 許可證
本項目採用 Apache-2.0 許可證。