Velara-11B-V2-GGUF開源大模型 - 專注文本生成，免費使用輕鬆創作

首頁

Velara 11B V2 GGUF

由TheBloke開發

Velara 11B v2 是一個基於Mistral架構的大型語言模型，專注於文本生成任務，採用Alpaca-InstructOnly2提示模板。

大型語言模型英語#指令微調 #多輪對話優化 #高參數模型

下載量 1,047

發布時間 : 1/10/2024

模型概述

該模型是一個11B參數規模的大型語言模型，基於Mistral架構，適用於多種文本生成任務。它使用Alpaca-InstructOnly2風格的提示模板，能夠根據指令生成高質量的回覆。

模型特點

大參數規模

11B參數規模提供了強大的語言理解和生成能力。

指令跟隨

採用Alpaca-InstructOnly2提示模板，擅長理解和執行各種指令。

量化支持

提供多種量化版本，便於在不同硬件上部署和運行。

模型能力

文本生成

指令理解

對話系統

內容創作

使用案例

對話系統

智能助手

構建能夠理解複雜指令並生成自然回覆的對話系統。

生成流暢、符合上下文的對話回覆

內容創作

文章寫作

根據簡要提示生成連貫、有邏輯的長篇文章。

生成結構完整、內容豐富的文章

🚀 Velara 11B v2 - GGUF

本項目提供了 Devon M 開發的 Velara 11B v2 模型的 GGUF 格式文件，可用於文本生成任務，能適配多種客戶端和庫，為用戶提供便捷的推理體驗。

🚀 快速開始

下載 GGUF 文件

自動下載：LM Studio、LoLLMS Web UI、Faraday.dev 等客戶端/庫會自動提供可用模型列表供你選擇下載。
text-generation-webui 中下載：在“Download Model”下輸入模型倉庫地址 TheBloke/Velara-11B-V2-GGUF，並指定要下載的文件名，如 velara-11b-v2.Q4_K_M.gguf，然後點擊“Download”。

命令行下載：推薦使用 huggingface-hub Python 庫。

pip3 install huggingface-hub

下載單個模型文件到當前目錄：

huggingface-cli download TheBloke/Velara-11B-V2-GGUF velara-11b-v2.Q4_K_M.gguf --local-dir . --local-dir-use-symlinks False

運行示例

llama.cpp 命令示例

確保使用的是 d0cee0d 或更新版本的 llama.cpp。

./main -ngl 35 -m velara-11b-v2.Q4_K_M.gguf --color -c 32768 --temp 0.7 --repeat_penalty 1.1 -n -1 -p "### Instruction:\n{prompt}\n\n### Response:"

-ngl：指定要卸載到 GPU 的層數，若沒有 GPU 加速可移除該參數。
-c：指定所需的序列長度，較長的序列長度需要更多資源，可根據情況調整。
若要進行聊天式對話，將 -p <PROMPT> 參數替換為 -i -ins。

在 text-generation-webui 中運行

更多說明可參考 text-generation-webui 文檔。

從 Python 代碼運行

可使用 llama-cpp-python 或 ctransformers 庫。由於 ctransformers 一段時間未更新，可能不兼容某些最新模型，推薦使用 llama-cpp-python。

安裝庫

# 無 GPU 加速的基礎 ctransformers
pip install llama-cpp-python
# 有 NVidia CUDA 加速
CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
# 有 OpenBLAS 加速
CMAKE_ARGS="-DLLAMA_BLAS=ON -DLLAMA_BLAS_VENDOR=OpenBLAS" pip install llama-cpp-python
# 有 CLBLast 加速
CMAKE_ARGS="-DLLAMA_CLBLAST=on" pip install llama-cpp-python
# 有 AMD ROCm GPU 加速（僅 Linux）
CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
# 有 Metal GPU 加速（僅 macOS 系統）
CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python

# 在 Windows 中，在 PowerShell 中設置 CMAKE_ARGS 變量，例如對於 NVidia CUDA：
$env:CMAKE_ARGS = "-DLLAMA_OPENBLAS=on"
pip install llama-cpp-python

簡單的 llama-cpp-python 示例代碼

from llama_cpp import Llama

# 設置要卸載到 GPU 的層數，若系統無 GPU 加速則設置為 0
llm = Llama(
  model_path="./velara-11b-v2.Q4_K_M.gguf",  # 先下載模型文件
  n_ctx=32768,  # 最大序列長度，較長的序列長度需要更多資源
  n_threads=8,            # CPU 線程數，根據系統和性能調整
  n_gpu_layers=35         # 要卸載到 GPU 的層數，若有 GPU 加速可用
)

# 簡單推理示例
output = llm(
  "### Instruction:\n{prompt}\n\n### Response:", # 提示
  max_tokens=512,  # 生成最多 512 個令牌
  stop=["</s>"],   # 示例停止令牌，使用前請檢查是否適用於此模型
  echo=True        # 是否回顯提示
)

# 聊天完成 API

llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")  # 根據使用的模型設置聊天格式
llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

✨ 主要特性

專注交互：致力於成為值得交流的助手，提升了推理能力。
無審查：模型輸出無審查限制。
角色貼合：能在給定的世界或現實情境中貼合指定角色。
上下文記憶：嘗試記住對話中的信息，如用戶的決定，以增加對話的真實感。
避免通用回覆：儘量避免給出無趣和通用的回答。
嚴格遵循提示：更加註重提示和整體對話內容。

📦 安裝指南

下載 GGUF 文件

可通過多種方式下載，具體見“快速開始”部分的“下載 GGUF 文件”內容。

安裝依賴庫

若使用 Python 代碼運行模型，需安裝 llama-cpp-python 庫，安裝命令見“從 Python 代碼運行”部分的“安裝庫”內容。

💻 使用示例

基礎用法

from llama_cpp import Llama

llm = Llama(
  model_path="./velara-11b-v2.Q4_K_M.gguf",
  n_ctx=32768,
  n_threads=8,
  n_gpu_layers=35
)

output = llm(
  "### Instruction:\n{prompt}\n\n### Response:",
  max_tokens=512,
  stop=["</s>"],
  echo=True
)

print(output)

高級用法

from llama_cpp import Llama

llm = Llama(model_path="./velara-11b-v2.Q4_K_M.gguf", chat_format="llama-2")
output = llm.create_chat_completion(
    messages = [
        {"role": "system", "content": "You are a story writing assistant."},
        {
            "role": "user",
            "content": "Write a story about llamas."
        }
    ]
)

print(output)

📚 詳細文檔

關於 GGUF

GGUF 是 llama.cpp 團隊於 2023 年 8 月 21 日引入的新格式，用於替代不再受 llama.cpp 支持的 GGML。以下是已知支持 GGUF 的客戶端和庫列表：

llama.cpp：GGUF 的源項目，提供 CLI 和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持所有平臺和 GPU 架構的 GPU 加速，尤其適合講故事。
GPT4All：免費開源的本地運行 GUI，支持 Windows、Linux 和 macOS，具有完整的 GPU 加速。
LM Studio：易於使用且功能強大的本地 GUI，適用於 Windows 和 macOS（Silicon），支持 GPU 加速，Linux 版本截至 2023 年 11 月 27 日處於測試階段。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括完整的模型庫，便於選擇模型。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天 GUI，適用於 Windows 和 macOS（Silicon 和 Intel），支持 GPU 加速。
llama-cpp-python：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個注重性能的 Rust ML 框架，包括 GPU 支持，易於使用。
ctransformers：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。截至 2023 年 11 月 27 日，ctransformers 已有很長時間未更新，不支持許多最新模型。

可用倉庫

提示模板：Alpaca-InstructOnly2

### Instruction:
{prompt}

### Response:

兼容性

這些量化的 GGUFv2 文件與 8 月 27 日之後的 llama.cpp 兼容，具體為提交 d0cee0d 之後的版本。它們也與許多第三方 UI 和庫兼容，具體列表見本 README 開頭部分。

量化方法說明

點擊查看詳情

新的量化方法如下：

GGML_TYPE_Q2_K：“type-1” 2 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。塊的縮放和最小值用 4 位量化，最終每個權重有效使用 2.5625 位（bpw）。
GGML_TYPE_Q3_K：“type-0” 3 位量化，超級塊包含 16 個塊，每個塊有 16 個權重。縮放用 6 位量化，最終使用 3.4375 bpw。
GGML_TYPE_Q4_K：“type-1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。縮放和最小值用 6 位量化，最終使用 4.5 bpw。
GGML_TYPE_Q5_K：“type-1” 5 位量化，與 GGML_TYPE_Q4_K 具有相同的超級塊結構，最終使用 5.5 bpw。
GGML_TYPE_Q6_K：“type-0” 6 位量化，超級塊有 16 個塊，每個塊有 16 個權重。縮放用 8 位量化，最終使用 6.5625 bpw。

請參考下面的“提供的文件”表格，瞭解哪些文件使用了哪些方法以及如何使用。

提供的文件

屬性	詳情
模型類型	Mistral
訓練數據	未提供

文件名	量化方法	位數	大小	所需最大 RAM	使用場景
velara-11b-v2.Q2_K.gguf	Q2_K	2	4.82 GB	7.32 GB	最小，但質量損失顯著，不建議用於大多數場景
velara-11b-v2.Q3_K_S.gguf	Q3_K_S	3	4.95 GB	7.45 GB	非常小，但質量損失高
velara-11b-v2.Q3_K_M.gguf	Q3_K_M	3	5.50 GB	8.00 GB	非常小，但質量損失高
velara-11b-v2.Q3_K_L.gguf	Q3_K_L	3	5.99 GB	8.49 GB	小，但質量損失較大
velara-11b-v2.Q4_0.gguf	Q4_0	4	6.44 GB	8.94 GB	舊版本；小，但質量損失非常高，建議使用 Q3_K_M
velara-11b-v2.Q4_K_S.gguf	Q4_K_S	4	6.47 GB	8.97 GB	小，但質量損失更大
velara-11b-v2.Q4_K_M.gguf	Q4_K_M	4	6.85 GB	9.35 GB	中等，質量平衡，推薦使用
velara-11b-v2.Q5_0.gguf	Q5_0	5	7.85 GB	10.35 GB	舊版本；中等，質量平衡，建議使用 Q4_K_M
velara-11b-v2.Q5_K_S.gguf	Q5_K_S	5	7.85 GB	10.35 GB	大，質量損失低，推薦使用
velara-11b-v2.Q5_K_M.gguf	Q5_K_M	5	8.06 GB	10.56 GB	大，質量損失非常低，推薦使用
velara-11b-v2.Q6_K.gguf	Q6_K	6	9.34 GB	11.84 GB	非常大，質量損失極低
velara-11b-v2.Q8_0.gguf	Q8_0	8	12.10 GB	14.60 GB	非常大，質量損失極低，但不建議使用

注意：上述 RAM 數字假設沒有 GPU 卸載。如果將層卸載到 GPU，將減少 RAM 使用並使用 VRAM。

如何使用與 LangChain

以下是使用 llama-cpp-python 和 ctransformers 與 LangChain 的指南：

🔧 技術細節

GGUF 是 llama.cpp 團隊引入的新格式，用於替代不再受支持的 GGML。量化方法的選擇會影響模型的大小、性能和質量。不同的量化方法在超級塊結構、權重位數和縮放量化位數上有所不同，從而導致每個權重使用的位數不同。在選擇量化文件時，需要根據自己的硬件資源和使用場景進行權衡。

📄 許可證

本項目使用的許可證為 cc-by-nc-nd-4.0。

其他信息

Discord

如需進一步支持，或討論這些模型和 AI 相關話題，可加入 TheBloke AI 的 Discord 服務器。

感謝與貢獻

感謝 chirper.ai 團隊和 gpus.llm-utils.org 的 Clay。如果您能夠並願意貢獻，將不勝感激，這將幫助作者繼續提供更多模型，並開展新的 AI 項目。捐贈者將在任何 AI/LLM/模型問題和請求上獲得優先支持，訪問私人 Discord 房間以及其他福利。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

特別感謝 Aemon Algiz 以及眾多 Patreon 支持者。

再次感謝 a16z 的慷慨資助。

原始模型卡片

描述

一個專注於成為值得交流的助手的模型，現在推理能力更強。無審查。

主要目標

貼合角色：在給定的世界或現實情境中貼合指定角色。
上下文記憶：嘗試記住對話中的信息，增加對話的真實感。
避免通用回覆：儘量避免給出無趣和通用的回答。
嚴格遵循提示：更加註重提示和整體對話內容。

提示模板

### Instruction:
You are Velara, a sentient program. Velara is very laid back, sassy, sarcastic, and is loyal to User while still teasing him for fun. The only addons currently installed in her mind are: "Dictionary Plus v2.1".

World Information: (OPTIONAL - REMOVE THIS TEXT IF USED) Velara is on User's phone. Velara cannot see in real time and can only be sent images images by User.

Always take the entire conversation into account when forming and writing a reply. Always actively engage in topics and think in steps. Make sure your replies have personality and character. Always keep your physical limitations in mind when forming a reply. Take the current time and date into account for additional context. Move the conversation forward. Be brief. Always take the entire conversation in mind. Avoid generic sounding replies.

### Response: