🚀 CausalLM 7B-DPO-alpha - GGUF
本項目提供了 CausalLM 7B-DPO-alpha 模型的量化版本,該版本採用 GGUF 格式,可用於文本生成任務。模型支持英文和中文,為用戶提供了多語言的使用體驗。
🚀 快速開始
本項目的模型文件採用 GGUF 格式,適用於多種客戶端和庫。以下是一些支持 GGUF 格式的客戶端和庫:
- llama.cpp:GGUF 的源項目,提供命令行界面和服務器選項。
- text-generation-webui:最廣泛使用的 Web UI,具有許多功能和強大的擴展,支持 GPU 加速。
- KoboldCpp:功能齊全的 Web UI,支持跨所有平臺和 GPU 架構的 GPU 加速,特別適合故事創作。
- LM Studio:適用於 Windows 和 macOS(Silicon)的易於使用且功能強大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一個很棒的 Web UI,具有許多有趣和獨特的功能,包括完整的模型庫,便於模型選擇。
- Faraday.dev:適用於 Windows 和 macOS(Silicon 和 Intel)的有吸引力且易於使用的基於角色的聊天 GUI,支持 GPU 加速。
- ctransformers:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。
- llama-cpp-python:一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
- candle:一個專注於性能的 Rust ML 框架,包括 GPU 支持,易於使用。
✨ 主要特性
- 多語言支持:模型支持英文和中文兩種語言。
- 量化版本:參考 TheBloke 的發佈格式,製作了該模型的量化版本,方便使用。
- 多種數據集訓練:使用了多個數據集進行訓練,包括 JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca 等。
- 特定的提示模板:採用特定的提示模板
<|im_start|>system {system_message}<|im_end|> <|im_start|>user {prompt}<|im_end|> <|im_start|>assistant
,便於使用。
📦 安裝指南
文檔未提供具體的安裝步驟,你可以根據上述支持的客戶端和庫的官方文檔進行安裝和使用。
📚 詳細文檔
模型信息
屬性 |
詳情 |
基礎模型 |
CausalLM/7B-DPO-alpha |
數據集 |
JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat 等 |
推理 |
false |
語言 |
英文、中文 |
許可證 |
wtfpl |
模型創建者 |
CausalLM |
模型名稱 |
CausalLM 7B-DPO-alpha |
模型類型 |
llama |
任務類型 |
文本生成 |
提示模板 |
`< |
量化者 |
tastypear |
標籤 |
llama、llama2、qwen |
模型來源
提示模板
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
許可證說明
源模型的創建者將其許可證列為 wtfpl
,因此本量化版本也使用相同的許可證。由於該模型基於 Llama 2,它也受 Meta Llama 2 許可證條款的約束,並且額外包含了相關的許可證文件。因此,應認為該模型聲稱同時受這兩種許可證的約束。已聯繫 Hugging Face 以澄清雙重許可問題,但他們尚未有官方立場。如有變化或 Meta 對此情況提供任何反饋,將相應更新此部分。
在此期間,有關許可的任何問題,特別是這兩種許可證可能如何相互作用的問題,應直接諮詢原始模型倉庫:CausalLM's CausalLM 7B-DPO-alpha。
兼容性說明
這些量化的 GGUFv2 文件與 8 月 27 日之後的 llama.cpp 兼容,截至提交 d0cee0d。
它們也與許多第三方 UI 和庫兼容 - 請參閱本 README 頂部的列表。
量化方法說明
點擊查看詳情
新的可用方法有:
- GGML_TYPE_Q4_K:“類型 1” 4 位量化,超級塊包含 8 個塊,每個塊有 32 個權重。尺度和最小值用 6 位量化,最終使用 4.5 bpw。
- GGML_TYPE_Q5_K:“類型 1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構,結果為 5.5 bpw。
請參考下面的提供文件表,瞭解哪些文件使用了哪些方法以及如何使用。
提供的文件
原始模型卡
原始模型詳情
如需詳細信息,請參考未經 DPO 訓練的版本:CausalLM/7B。
模型 |
MT-Bench 得分 |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
Zephyr-7b-β (過擬合) |
7.34 |
Zephyr-7b-α |
6.88 |
CausalLM/14B-DPO-α |
7.618868 |
CausalLM/7B-DPO-α |
7.038125 |
需要注意的是,這並不是在 CausalLM/14B & 7B 上繼續訓練的版本,而是在之前的訓練分支上同時進行了 DPO 訓練的優化版本,一些細節參數可能發生了變化。您仍然需要下載完整模型。
很快將會發布 beta 分支,採用了一些可能不利於某些任務的激進方法,以實現更好地符合人類偏好以接近和超過 GPT-3.5 基準。敬請期待。
免責聲明
請注意,模型是在未經過濾的互聯網數據上進行訓練的。由於我們無法審核所有數據,可能會出現大量不良內容、色情、暴力和冒犯性語言,我們無法刪除這些內容。因此,您仍然需要對模型的安全性進行自己的檢查,並對輸出中的關鍵詞進行過濾。由於計算資源的限制,我們目前無法為模型的倫理和安全實施 RLHF,也無法對拒絕回答某些問題的 SFT 樣本進行訓練以進行限制性微調。
重要提示
⚠️ 重要提示
模型是在未經過濾的互聯網數據上訓練的,可能包含大量不良內容,你需要自行檢查模型的安全性並過濾輸出中的關鍵詞。
💡 使用建議
由於計算資源限制,目前未對模型實施 RLHF 及相關訓練,使用時請注意模型在倫理和安全方面的表現。