🚀 CausalLM 14B-DPO-alpha - GGUF
本項目提供了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件,有助於文本生成任務,為用戶提供了更多模型使用的選擇。
🚀 快速開始
本倉庫包含了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件。
✨ 主要特性
模型信息
屬性 |
詳情 |
模型類型 |
CausalLM 14B-DPO-alpha - GGUF |
訓練數據 |
JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes、openbmb/UltraFeedback、lmsys/lmsys-chat-1m |
支持語言 |
英語、中文 |
任務類型 |
文本生成 |
標籤 |
llama、llama2、qwen、causallm |
關於GGUF
!! GUFF的介紹摘自TheBloke的模型卡片 !!
GGUF是llama.cpp團隊在2023年8月21日推出的一種新格式,它取代了GGML,目前llama.cpp已不再支持GGML。
以下是已知支持GGUF的客戶端和庫的不完全列表:
提示模板:ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
許可證
原始模型的許可證列為“wtfpl”,但需遵守“Meta Llama 2許可條款”。
原始模型卡片:CausalLM的CausalLM 14B-DPO-alpha
詳情請參考未經DPO訓練的版本:CausalLM/14B。
模型 |
MT-Bench |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
|
|
Zephyr-7b-β(過擬合) |
7.34 |
Zephyr-7b-α |
6.88 |
|
|
CausalLM/14B-DPO-α |
7.618868 |
CausalLM/7B-DPO-α |
7.038125 |
需要注意的是,這不是在CausalLM/14B和7B上繼續訓練的版本,而是在之前的訓練分支上同時進行了DPO訓練的優化版本,一些詳細參數可能已經改變。您仍然需要下載完整的模型。
beta分支即將發佈,它採用了一些可能對某些任務不利的激進方法,以更好地符合人類偏好,目標是達到或超過GPT-3.5的基準。請保持關注。
⚠️ 重要提示
請注意,該模型是在未經過濾的互聯網數據上訓練的。由於我們無法審查所有數據,可能存在大量令人反感的內容、色情、暴力和冒犯性語言,我們無法將其刪除。因此,您仍需要自行檢查模型的安全性,並對輸出中的關鍵詞進行過濾。由於計算資源的限制,我們目前無法為模型的倫理和安全實施RLHF,也無法對拒絕回答某些問題的SFT樣本進行訓練以進行限制性微調。