CausalLM-7B-DPO-alpha-GGUF開源大模型 - 支持中英文文本高效生成

首頁

Causallm 7B DPO Alpha GGUF

由tastypear開發

基於Llama 2架構的7B參數大語言模型，經過DPO訓練優化，支持中英文文本生成

大型語言模型支持多種語言#多輪對話優化 #中英雙語支持 #人類偏好對齊

下載量 367

發布時間 : 11/19/2023

模型概述

這是一個經過DPO優化的7B參數大語言模型，基於Llama 2架構，支持中英文文本生成任務。模型在多個數據集上訓練，包括Guanaco、OpenOrca等，旨在提供更符合人類偏好的文本生成能力。

模型特點

DPO優化

模型經過直接偏好優化(DPO)訓練，能生成更符合人類偏好的文本

多數據集訓練

在Guanaco、OpenOrca、UltraChat等20多個高質量數據集上訓練

中英雙語支持

同時支持英文和中文文本生成任務

GGUF量化格式

提供多種量化版本的GGUF格式模型文件，便於不同硬件部署

模型能力

文本生成

對話系統

問答系統

內容創作

使用案例

對話系統

智能助手

可用於構建智能對話助手

在MT-Bench基準測試中得分7.038

內容創作

文本生成

可用於生成各種類型的文本內容

🚀 CausalLM 7B-DPO-alpha - GGUF

本項目提供了 CausalLM 7B-DPO-alpha 模型的量化版本，該版本採用 GGUF 格式，可用於文本生成任務。模型支持英文和中文，為用戶提供了多語言的使用體驗。

🚀 快速開始

本項目的模型文件採用 GGUF 格式，適用於多種客戶端和庫。以下是一些支持 GGUF 格式的客戶端和庫：

llama.cpp：GGUF 的源項目，提供命令行界面和服務器選項。
text-generation-webui：最廣泛使用的 Web UI，具有許多功能和強大的擴展，支持 GPU 加速。
KoboldCpp：功能齊全的 Web UI，支持跨所有平臺和 GPU 架構的 GPU 加速，特別適合故事創作。
LM Studio：適用於 Windows 和 macOS（Silicon）的易於使用且功能強大的本地 GUI，支持 GPU 加速。
LoLLMS Web UI：一個很棒的 Web UI，具有許多有趣和獨特的功能，包括完整的模型庫，便於模型選擇。
Faraday.dev：適用於 Windows 和 macOS（Silicon 和 Intel）的有吸引力且易於使用的基於角色的聊天 GUI，支持 GPU 加速。
ctransformers：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服務器的 Python 庫。
llama-cpp-python：一個支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服務器的 Python 庫。
candle：一個專注於性能的 Rust ML 框架，包括 GPU 支持，易於使用。

✨ 主要特性

多語言支持：模型支持英文和中文兩種語言。
量化版本：參考 TheBloke 的發佈格式，製作了該模型的量化版本，方便使用。
多種數據集訓練：使用了多個數據集進行訓練，包括 JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca 等。
特定的提示模板：採用特定的提示模板 <|im_start|>system {system_message}<|im_end|> <|im_start|>user {prompt}<|im_end|> <|im_start|>assistant，便於使用。

📦 安裝指南

文檔未提供具體的安裝步驟，你可以根據上述支持的客戶端和庫的官方文檔進行安裝和使用。

📚 詳細文檔

模型信息

屬性	詳情
基礎模型	CausalLM/7B-DPO-alpha
數據集	JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat 等
推理	false
語言	英文、中文
許可證	wtfpl
模型創建者	CausalLM
模型名稱	CausalLM 7B-DPO-alpha
模型類型	llama
任務類型	文本生成
提示模板	`<
量化者	tastypear
標籤	llama、llama2、qwen

模型來源

模型創建者：CausalLM
原始模型：CausalLM 7B-DPO-alpha

提示模板

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

許可證說明

源模型的創建者將其許可證列為 wtfpl，因此本量化版本也使用相同的許可證。由於該模型基於 Llama 2，它也受 Meta Llama 2 許可證條款的約束，並且額外包含了相關的許可證文件。因此，應認為該模型聲稱同時受這兩種許可證的約束。已聯繫 Hugging Face 以澄清雙重許可問題，但他們尚未有官方立場。如有變化或 Meta 對此情況提供任何反饋，將相應更新此部分。

在此期間，有關許可的任何問題，特別是這兩種許可證可能如何相互作用的問題，應直接諮詢原始模型倉庫：CausalLM's CausalLM 7B-DPO-alpha。

兼容性說明

這些量化的 GGUFv2 文件與 8 月 27 日之後的 llama.cpp 兼容，截至提交 d0cee0d。

它們也與許多第三方 UI 和庫兼容 - 請參閱本 README 頂部的列表。

量化方法說明

點擊查看詳情

新的可用方法有：

GGML_TYPE_Q4_K：“類型 1” 4 位量化，超級塊包含 8 個塊，每個塊有 32 個權重。尺度和最小值用 6 位量化，最終使用 4.5 bpw。
GGML_TYPE_Q5_K：“類型 1” 5 位量化。與 GGML_TYPE_Q4_K 具有相同的超級塊結構，結果為 5.5 bpw。

請參考下面的提供文件表，瞭解哪些文件使用了哪些方法以及如何使用。

提供的文件

名稱	量化方法	位數	大小
causallm_7b.Q4_K_M.gguf	Q4_K_M	4	4.77 GB
causallm_7b.Q5_K_S.gguf	Q5_K_S	5	5.40 GB
causallm_7b.Q5_K_M.gguf	Q5_K_M	5	5.53 GB

原始模型卡

原始模型詳情

如需詳細信息，請參考未經 DPO 訓練的版本：CausalLM/7B。

模型	MT-Bench 得分
GPT-4	8.99
GPT-3.5-Turbo	7.94
Zephyr-7b-β (過擬合)	7.34
Zephyr-7b-α	6.88
CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

需要注意的是，這並不是在 CausalLM/14B & 7B 上繼續訓練的版本，而是在之前的訓練分支上同時進行了 DPO 訓練的優化版本，一些細節參數可能發生了變化。您仍然需要下載完整模型。

很快將會發布 beta 分支，採用了一些可能不利於某些任務的激進方法，以實現更好地符合人類偏好以接近和超過 GPT-3.5 基準。敬請期待。

免責聲明

請注意，模型是在未經過濾的互聯網數據上進行訓練的。由於我們無法審核所有數據，可能會出現大量不良內容、色情、暴力和冒犯性語言，我們無法刪除這些內容。因此，您仍然需要對模型的安全性進行自己的檢查，並對輸出中的關鍵詞進行過濾。由於計算資源的限制，我們目前無法為模型的倫理和安全實施 RLHF，也無法對拒絕回答某些問題的 SFT 樣本進行訓練以進行限制性微調。