🚀 CausalLM 14B-DPO-alpha - GGUF
本项目提供了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件,有助于文本生成任务,为用户提供了更多模型使用的选择。
🚀 快速开始
本仓库包含了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件。
✨ 主要特性
模型信息
属性 |
详情 |
模型类型 |
CausalLM 14B-DPO-alpha - GGUF |
训练数据 |
JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes、openbmb/UltraFeedback、lmsys/lmsys-chat-1m |
支持语言 |
英语、中文 |
任务类型 |
文本生成 |
标签 |
llama、llama2、qwen、causallm |
关于GGUF
!! GUFF的介绍摘自TheBloke的模型卡片 !!
GGUF是llama.cpp团队在2023年8月21日推出的一种新格式,它取代了GGML,目前llama.cpp已不再支持GGML。
以下是已知支持GGUF的客户端和库的不完全列表:
提示模板:ChatML
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
许可证
原始模型的许可证列为“wtfpl”,但需遵守“Meta Llama 2许可条款”。
原始模型卡片:CausalLM的CausalLM 14B-DPO-alpha
详情请参考未经DPO训练的版本:CausalLM/14B。
模型 |
MT-Bench |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
|
|
Zephyr-7b-β(过拟合) |
7.34 |
Zephyr-7b-α |
6.88 |
|
|
CausalLM/14B-DPO-α |
7.618868 |
CausalLM/7B-DPO-α |
7.038125 |
需要注意的是,这不是在CausalLM/14B和7B上继续训练的版本,而是在之前的训练分支上同时进行了DPO训练的优化版本,一些详细参数可能已经改变。您仍然需要下载完整的模型。
beta分支即将发布,它采用了一些可能对某些任务不利的激进方法,以更好地符合人类偏好,目标是达到或超过GPT-3.5的基准。请保持关注。
⚠️ 重要提示
请注意,该模型是在未经过滤的互联网数据上训练的。由于我们无法审查所有数据,可能存在大量令人反感的内容、色情、暴力和冒犯性语言,我们无法将其删除。因此,您仍需要自行检查模型的安全性,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施RLHF,也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。