CausalLM-14B-DPO-alpha-GGUF开源模型 - 支持中英文文本生成，效果更优！

首页

Causallm 14B DPO Alpha GGUF

由 tastypear 开发

基于14B参数的因果语言模型，经过DPO优化训练，支持中英文文本生成任务

大型语言模型支持多种语言#多轮对话优化 #中英双语生成 #人类偏好对齐

下载量 2,238

发布时间 : 11/25/2023

模型简介

这是一个经过直接偏好优化(DPO)训练的14B参数因果语言模型，专为文本生成任务设计，支持中英文双语处理。模型在MT-Bench基准测试中表现优异，接近GPT-3.5水平。

模型特点

DPO优化训练

采用直接偏好优化方法训练，使模型输出更符合人类偏好

双语支持

同时支持英文和中文文本生成任务

高性能表现

在MT-Bench基准测试中得分7.618868，接近GPT-3.5水平

GGUF格式支持

提供GGUF格式模型文件，兼容多种推理客户端和库

模型能力

文本生成

对话系统

问答系统

内容创作

使用案例

智能对话

聊天机器人

构建中英文双语聊天机器人

接近GPT-3.5水平的对话体验

内容创作

文章生成

根据提示生成中英文文章

🚀 CausalLM 14B-DPO-alpha - GGUF

本项目提供了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件，有助于文本生成任务，为用户提供了更多模型使用的选择。

🚀 快速开始

本仓库包含了 CausalLM的14B-DPO-alpha 模型的GGUF格式文件。

✨ 主要特性

模型信息

属性	详情
模型类型	CausalLM 14B-DPO-alpha - GGUF
训练数据	JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat、meta-math/MetaMathQA、liuhaotian/LLaVA-Instruct-150K、jondurbin/airoboros-3.1、WizardLM/WizardLM_evol_instruct_V2_196k、RyokoAI/ShareGPT52K、RyokoAI/Fandom23K、milashkaarshif/MoeGirlPedia_wikitext_raw_archive、wikipedia、wiki_lingua、fnlp/moss-003-sft-data、garage-bAInd/Open-Platypus、LDJnr/Puffin、openbmb/llava_zh、BAAI/COIG、TigerResearch/tigerbot-zhihu-zh-10k、liwu/MNBVC、teknium/openhermes、openbmb/UltraFeedback、lmsys/lmsys-chat-1m
支持语言	英语、中文
任务类型	文本生成
标签	llama、llama2、qwen、causallm

关于GGUF

!! GUFF的介绍摘自TheBloke的模型卡片 !!

GGUF是llama.cpp团队在2023年8月21日推出的一种新格式，它取代了GGML，目前llama.cpp已不再支持GGML。

以下是已知支持GGUF的客户端和库的不完全列表：

llama.cpp：GGUF的源项目，提供了命令行界面和服务器选项。
text-generation-webui：最广泛使用的Web UI，具有许多功能和强大的扩展，支持GPU加速。
KoboldCpp：一个功能齐全的Web UI，支持所有平台和GPU架构的GPU加速，尤其适合讲故事。
LM Studio：一个易于使用且功能强大的本地GUI，适用于Windows和macOS（Silicon），支持GPU加速。
LoLLMS Web UI：一个很棒的Web UI，具有许多有趣和独特的功能，包括一个完整的模型库，便于模型选择。
Faraday.dev：一个有吸引力且易于使用的基于角色的聊天GUI，适用于Windows和macOS（Silicon和Intel），支持GPU加速。
ctransformers：一个支持GPU加速的Python库，支持LangChain，并且有兼容OpenAI的AI服务器。
llama-cpp-python：一个支持GPU加速的Python库，支持LangChain，并且有兼容OpenAI的API服务器。
candle：一个Rust机器学习框架，注重性能，包括GPU支持，并且易于使用。

提示模板：ChatML

<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

许可证

原始模型的许可证列为“wtfpl”，但需遵守“Meta Llama 2许可条款”。

原始模型卡片：CausalLM的CausalLM 14B-DPO-alpha

详情请参考未经DPO训练的版本：CausalLM/14B。

模型	MT-Bench
GPT-4	8.99
GPT-3.5-Turbo	7.94

Zephyr-7b-β（过拟合）	7.34
Zephyr-7b-α	6.88

CausalLM/14B-DPO-α	7.618868
CausalLM/7B-DPO-α	7.038125

需要注意的是，这不是在CausalLM/14B和7B上继续训练的版本，而是在之前的训练分支上同时进行了DPO训练的优化版本，一些详细参数可能已经改变。您仍然需要下载完整的模型。

beta分支即将发布，它采用了一些可能对某些任务不利的激进方法，以更好地符合人类偏好，目标是达到或超过GPT-3.5的基准。请保持关注。

⚠️ 重要提示

请注意，该模型是在未经过滤的互联网数据上训练的。由于我们无法审查所有数据，可能存在大量令人反感的内容、色情、暴力和冒犯性语言，我们无法将其删除。因此，您仍需要自行检查模型的安全性，并对输出中的关键词进行过滤。由于计算资源的限制，我们目前无法为模型的伦理和安全实施RLHF，也无法对拒绝回答某些问题的SFT样本进行训练以进行限制性微调。