CausalLM-14B-DPO-alpha-GGUF開源模型 - 支持中英文文本生成，效果更優！

首頁

Causallm 14B DPO Alpha GGUF

由tastypear開發

基於14B參數的因果語言模型，經過DPO優化訓練，支持中英文文本生成任務

大型語言模型支持多種語言#多輪對話優化 #中英雙語生成 #人類偏好對齊

下載量 2,238

發布時間 : 11/25/2023

模型概述

這是一個經過直接偏好優化(DPO)訓練的14B參數因果語言模型，專為文本生成任務設計，支持中英文雙語處理。模型在MT-Bench基準測試中表現優異，接近GPT-3.5水平。

模型特點

DPO優化訓練

採用直接偏好優化方法訓練，使模型輸出更符合人類偏好

雙語支持

同時支持英文和中文文本生成任務

高性能表現

在MT-Bench基準測試中得分7.618868，接近GPT-3.5水平

GGUF格式支持

提供GGUF格式模型文件，兼容多種推理客戶端和庫

模型能力

文本生成

對話系統

問答系統

內容創作

使用案例

智能對話

聊天機器人

構建中英文雙語聊天機器人

接近GPT-3.5水平的對話體驗

內容創作

文章生成

根據提示生成中英文文章

🚀 CausalLM 14B-DPO-alpha - GGUF

本項目提供了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件，有助於文本生成任務，為用戶提供了更多模型使用的選擇。

🚀 快速開始

本倉庫包含了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件。

✨ 主要特性

模型信息

屬性	詳情
模型類型	CausalLM 14B-DPO-alpha - GGUF
訓練數據	JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes、openbmb/UltraFeedback、lmsys/lmsys-chat-1m
支持語言	英語、中文
任務類型	文本生成
標籤	llama、llama2、qwen、causallm

關於GGUF

!! GUFF的介紹摘自TheBloke的模型卡片 !!

GGUF是llama.cpp團隊在2023年8月21日推出的一種新格式，它取代了GGML，目前llama.cpp已不再支持GGML。

以下是已知支持GGUF的客戶端和庫的不完全列表：

llama.cpp：GGUF的源項目，提供了命令行界面和服務器選項。
text-generation-webui：最廣泛使用的Web UI，具有許多功能和強大的擴展，支持GPU加速。
KoboldCpp：一個功能齊全的Web UI，支持所有平臺和GPU架構的GPU加速，尤其適合講故事。
LM Studio：一個易於使用且功能強大的本地GUI，適用於Windows和macOS（Silicon），支持GPU加速。
LoLLMS Web UI：一個很棒的Web UI，具有許多有趣和獨特的功能，包括一個完整的模型庫，便於模型選擇。
Faraday.dev：一個有吸引力且易於使用的基於角色的聊天GUI，適用於Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一個支持GPU加速的Python庫，支持LangChain，並且有兼容OpenAI的AI服務器。
llama-cpp-python：一個支持GPU加速的Python庫，支持LangChain，並且有兼容OpenAI的API服務器。
candle：一個Rust機器學習框架，注重性能，包括GPU支持，並且易於使用。

提示模板：ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

許可證

原始模型的許可證列為“wtfpl”，但需遵守“Meta Llama 2許可條款”。

原始模型卡片：CausalLM的CausalLM 14B-DPO-alpha

詳情請參考未經DPO訓練的版本：CausalLM/14B。

模型	MT-Bench
GPT-4	8.99
GPT-3.5-Turbo	7.94

Zephyr-7b-β（過擬合）	7.34
Zephyr-7b-α	6.88

CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

需要注意的是，這不是在CausalLM/14B和7B上繼續訓練的版本，而是在之前的訓練分支上同時進行了DPO訓練的優化版本，一些詳細參數可能已經改變。您仍然需要下載完整的模型。

beta分支即將發佈，它採用了一些可能對某些任務不利的激進方法，以更好地符合人類偏好，目標是達到或超過GPT-3.5的基準。請保持關注。

⚠️ 重要提示

請注意，該模型是在未經過濾的互聯網數據上訓練的。由於我們無法審查所有數據，可能存在大量令人反感的內容、色情、暴力和冒犯性語言，我們無法將其刪除。因此，您仍需要自行檢查模型的安全性，並對輸出中的關鍵詞進行過濾。由於計算資源的限制，我們目前無法為模型的倫理和安全實施RLHF，也無法對拒絕回答某些問題的SFT樣本進行訓練以進行限制性微調。