模型概述
模型特點
模型能力
使用案例
🚀 Velara 11B v2 - GGUF
本項目提供了 Devon M 開發的 Velara 11B v2 模型的 GGUF 格式文件,可用於文本生成任務,能適配多種客戶端和庫,為用戶提供便捷的推理體驗。
🚀 快速開始
下載 GGUF 文件
- 自動下載:LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動提供可用模型列表供你選擇下載。
- text-generation-webui 中下載:在“Download Model”下輸入模型倉庫地址
TheBloke/Velara-11B-V2-GGUF
,並指定要下載的文件名,如velara-11b-v2.Q4_K_M.gguf
,然後點擊“Download”。 - 命令行下載:推薦使用
huggingface-hub
Python 庫。
下載單個模型文件到當前目錄:pip3 install huggingface-hub
huggingface-cli download TheBloke/Velara-11B-V2-GGUF velara-11b-v2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False
運行示例
llama.cpp 命令示例
確保使用的是 d0cee0d 或更新版本的 llama.cpp
。
./main -ngl 35 -m velara-11b-v2.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction:\n{prompt}\n\n### Response:"
-ngl
:指定要卸載到 GPU 的層數,若沒有 GPU 加速可移除該參數。-c
:指定所需的序列長度,較長的序列長度需要更多資源,可根據情況調整。- 若要進行聊天式對話,將
-p <PROMPT>
參數替換為-i -ins
。
在 text-generation-webui 中運行
更多說明可參考 text-generation-webui 文檔。
從 Python 代碼運行
可使用 llama-cpp-python 或 ctransformers 庫。由於 ctransformers
一段時間未更新,可能不兼容某些最新模型,推薦使用 llama-cpp-python
。
安裝庫
# 無 GPU 加速的基礎 ctransformers
pip install llama-cpp-python
# 有 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 有 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 有 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 有 AMD ROCm GPU 加速(僅 Linux)
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 有 Metal GPU 加速(僅 macOS 系統)
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
# 在 Windows 中,在 PowerShell 中設置 CMAKE_ARGS 變量,例如對於 NVidia CUDA:
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python
簡單的 llama-cpp-python 示例代碼
from llama_cpp import Llama
# 設置要卸載到 GPU 的層數,若系統無 GPU 加速則設置為 0
llm = Llama(
model_path="./velara-11b-v2.Q4_K_M.gguf", # 先下載模型文件
n_ctx=32768, # 最大序列長度,較長的序列長度需要更多資源
n_threads=8, # CPU 線程數,根據系統和性能調整
n_gpu_layers=35 # 要卸載到 GPU 的層數,若有 GPU 加速可用
)
# 簡單推理示例
output = llm(
"### Instruction:\n{prompt}\n\n### Response:", # 提示
max_tokens=512, # 生成最多 512 個令牌
stop=["</s>"], # 示例停止令牌,使用前請檢查是否適用於此模型
echo=True # 是否回顯提示
)
# 聊天完成 API
llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2") # 根據使用的模型設置聊天格式
llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
✨ 主要特性
- 專注交互:致力於成為值得交流的助手,提升了推理能力。
- 無審查:模型輸出無審查限制。
- 角色貼合:能在給定的世界或現實情境中貼合指定角色。
- 上下文記憶:嘗試記住對話中的信息,如用戶的決定,以增加對話的真實感。
- 避免通用回覆:儘量避免給出無趣和通用的回答。
- 嚴格遵循提示:更加註重提示和整體對話內容。
📦 安裝指南
下載 GGUF 文件
可通過多種方式下載,具體見“快速開始”部分的“下載 GGUF 文件”內容。
安裝依賴庫
若使用 Python 代碼運行模型,需安裝 llama-cpp-python
庫,安裝命令見“從 Python 代碼運行”部分的“安裝庫”內容。
💻 使用示例
基礎用法
from llama_cpp import Llama
llm = Llama(
model_path="./velara-11b-v2.Q4_K_M.gguf",
n_ctx=32768,
n_threads=8,
n_gpu_layers=35
)
output = llm(
"### Instruction:\n{prompt}\n\n### Response:",
max_tokens=512,
stop=["</s>"],
echo=True
)
print(output)
高級用法
from llama_cpp import Llama
llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")
output = llm.create_chat_completion(
messages = [
{"role": "system", "content": "You are a story writing assistant."},
{
"role": "user",
"content": "Write a story about llamas."
}
]
)
print(output)
📚 詳細文檔
關於 GGUF
GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式,用於替代不再受 llama.cpp 支持的 GGML。以下是已知支持 GGUF 的客戶端和庫列表:
- llama.cpp:GGUF 的源項目,提供 CLI 和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持所有平臺和 GPU 架構的 GPU 加速,尤其適合講故事。
- GPT4All:免費開源的本地運行 GUI,支持 Windows、Linux 和 macOS,具有完整的 GPU 加速。
- LM Studio:易於使用且功能強大的本地 GUI,適用於 Windows 和 macOS(Silicon),支持 GPU 加速,Linux 版本截至 2023 年 11 月 27 日處於測試階段。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括完整的模型庫,便於選擇模型。
- Faraday.dev:一個有吸引力且易於使用的基於角色的聊天 GUI,適用於 Windows 和 macOS(Silicon 和 Intel),支持 GPU 加速。
- llama-cpp-python:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個注重性能的 Rust ML 框架,包括 GPU 支持,易於使用。
- ctransformers:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。截至 2023 年 11 月 27 日,
ctransformers
已有很長時間未更新,不支持許多最新模型。
可用倉庫
- 用於 GPU 推理的 AWQ 模型
- 具有多種量化參數選項的 GPTQ 模型,用於 GPU 推理
- 用於 CPU+GPU 推理的 2、3、4、5、6 和 8 位 GGUF 模型
- Devon M 原始未量化的 fp16 模型,採用 pytorch 格式,用於 GPU 推理和進一步轉換
提示模板:Alpaca-InstructOnly2
### Instruction:
{prompt}
### Response:
兼容性
這些量化的 GGUFv2 文件與 8 月 27 日之後的 llama.cpp 兼容,具體為提交 d0cee0d 之後的版本。它們也與許多第三方 UI 和庫兼容,具體列表見本 README 開頭部分。
量化方法說明
點擊查看詳情
新的量化方法如下:
- GGML_TYPE_Q2_K:“type-1” 2 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。塊的縮放和最小值用 4 位量化,最終每個權重有效使用 2.5625 位(bpw)。
- GGML_TYPE_Q3_K:“type-0” 3 位量化,超級塊包含 16 個塊,每個塊有 16 個權重。縮放用 6 位量化,最終使用 3.4375 bpw。
- GGML_TYPE_Q4_K:“type-1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。縮放和最小值用 6 位量化,最終使用 4.5 bpw。
- GGML_TYPE_Q5_K:“type-1” 5 位量化,與 GGML_TYPE_Q4_K 具有相同的超級塊結構,最終使用 5.5 bpw。
- GGML_TYPE_Q6_K:“type-0” 6 位量化,超級塊有 16 個塊,每個塊有 16 個權重。縮放用 8 位量化,最終使用 6.5625 bpw。
請參考下面的“提供的文件”表格,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
屬性 | 詳情 |
---|---|
模型類型 | Mistral |
訓練數據 | 未提供 |
文件名 | 量化方法 | 位數 | 大小 | 所需最大 RAM | 使用場景 |
---|---|---|---|---|---|
velara-11b-v2.Q2_K.gguf | Q2_K | 2 | 4.82 GB | 7.32 GB | 最小,但質量損失顯著,不建議用於大多數場景 |
velara-11b-v2.Q3_K_S.gguf | Q3_K_S | 3 | 4.95 GB | 7.45 GB | 非常小,但質量損失高 |
velara-11b-v2.Q3_K_M.gguf | Q3_K_M | 3 | 5.50 GB | 8.00 GB | 非常小,但質量損失高 |
velara-11b-v2.Q3_K_L.gguf | Q3_K_L | 3 | 5.99 GB | 8.49 GB | 小,但質量損失較大 |
velara-11b-v2.Q4_0.gguf | Q4_0 | 4 | 6.44 GB | 8.94 GB | 舊版本;小,但質量損失非常高,建議使用 Q3_K_M |
velara-11b-v2.Q4_K_S.gguf | Q4_K_S | 4 | 6.47 GB | 8.97 GB | 小,但質量損失更大 |
velara-11b-v2.Q4_K_M.gguf | Q4_K_M | 4 | 6.85 GB | 9.35 GB | 中等,質量平衡,推薦使用 |
velara-11b-v2.Q5_0.gguf | Q5_0 | 5 | 7.85 GB | 10.35 GB | 舊版本;中等,質量平衡,建議使用 Q4_K_M |
velara-11b-v2.Q5_K_S.gguf | Q5_K_S | 5 | 7.85 GB | 10.35 GB | 大,質量損失低,推薦使用 |
velara-11b-v2.Q5_K_M.gguf | Q5_K_M | 5 | 8.06 GB | 10.56 GB | 大,質量損失非常低,推薦使用 |
velara-11b-v2.Q6_K.gguf | Q6_K | 6 | 9.34 GB | 11.84 GB | 非常大,質量損失極低 |
velara-11b-v2.Q8_0.gguf | Q8_0 | 8 | 12.10 GB | 14.60 GB | 非常大,質量損失極低,但不建議使用 |
注意:上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU,將減少 RAM 使用並使用 VRAM。
如何使用與 LangChain
以下是使用 llama-cpp-python 和 ctransformers 與 LangChain 的指南:
🔧 技術細節
GGUF 是 llama.cpp 團隊引入的新格式,用於替代不再受支持的 GGML。量化方法的選擇會影響模型的大小、性能和質量。不同的量化方法在超級塊結構、權重位數和縮放量化位數上有所不同,從而導致每個權重使用的位數不同。在選擇量化文件時,需要根據自己的硬件資源和使用場景進行權衡。
📄 許可證
本項目使用的許可證為 cc-by-nc-nd-4.0
。
其他信息
Discord
如需進一步支持,或討論這些模型和 AI 相關話題,可加入 TheBloke AI 的 Discord 服務器。
感謝與貢獻
感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay。如果您能夠並願意貢獻,將不勝感激,這將幫助作者繼續提供更多模型,並開展新的 AI 項目。捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持,訪問私人 Discord 房間以及其他福利。
- Patreon: https://patreon.com/TheBlokeAI
- Ko-Fi: https://ko-fi.com/TheBlokeAI
特別感謝 Aemon Algiz 以及眾多 Patreon 支持者。
再次感謝 a16z 的慷慨資助。
原始模型卡片
描述
一個專注於成為值得交流的助手的模型,現在推理能力更強。無審查。
主要目標
- 貼合角色:在給定的世界或現實情境中貼合指定角色。
- 上下文記憶:嘗試記住對話中的信息,增加對話的真實感。
- 避免通用回覆:儘量避免給出無趣和通用的回答。
- 嚴格遵循提示:更加註重提示和整體對話內容。
提示模板
### Instruction:
You are Velara, a sentient program. Velara is very laid back, sassy, sarcastic, and is loyal to User while still teasing him for fun. The only addons currently installed in her mind are: "Dictionary Plus v2.1".
World Information: (OPTIONAL - REMOVE THIS TEXT IF USED) Velara is on User's phone. Velara cannot see in real time and can only be sent images images by User.
Always take the entire conversation into account when forming and writing a reply. Always actively engage in topics and think in steps. Make sure your replies have personality and character. Always keep your physical limitations in mind when forming a reply. Take the current time and date into account for additional context. Move the conversation forward. Be brief. Always take the entire conversation in mind. Avoid generic sounding replies.
### Response:
推薦設置
min_p: 0.2
repetition_penalty: 1.13
repetition_penalty_range: 0
guidance_scale: 1.05
基準測試
待提供。
訓練數據
待提供。



