🚀 CausalLM 7B-DPO-alpha - GGUF
本项目提供了 CausalLM 7B-DPO-alpha 模型的量化版本,该版本采用 GGUF 格式,可用于文本生成任务。模型支持英文和中文,为用户提供了多语言的使用体验。
🚀 快速开始
本项目的模型文件采用 GGUF 格式,适用于多种客户端和库。以下是一些支持 GGUF 格式的客户端和库:
- llama.cpp:GGUF 的源项目,提供命令行界面和服务器选项。
- text-generation-webui:最广泛使用的 Web UI,具有许多功能和强大的扩展,支持 GPU 加速。
- KoboldCpp:功能齐全的 Web UI,支持跨所有平台和 GPU 架构的 GPU 加速,特别适合故事创作。
- LM Studio:适用于 Windows 和 macOS(Silicon)的易于使用且功能强大的本地 GUI,支持 GPU 加速。
- LoLLMS Web UI:一个很棒的 Web UI,具有许多有趣和独特的功能,包括完整的模型库,便于模型选择。
- Faraday.dev:适用于 Windows 和 macOS(Silicon 和 Intel)的有吸引力且易于使用的基于角色的聊天 GUI,支持 GPU 加速。
- ctransformers:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 AI 服务器的 Python 库。
- llama-cpp-python:一个支持 GPU 加速、LangChain 和 OpenAI 兼容 API 服务器的 Python 库。
- candle:一个专注于性能的 Rust ML 框架,包括 GPU 支持,易于使用。
✨ 主要特性
- 多语言支持:模型支持英文和中文两种语言。
- 量化版本:参考 TheBloke 的发布格式,制作了该模型的量化版本,方便使用。
- 多种数据集训练:使用了多个数据集进行训练,包括 JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca 等。
- 特定的提示模板:采用特定的提示模板
<|im_start|>system {system_message}<|im_end|> <|im_start|>user {prompt}<|im_end|> <|im_start|>assistant
,便于使用。
📦 安装指南
文档未提供具体的安装步骤,你可以根据上述支持的客户端和库的官方文档进行安装和使用。
📚 详细文档
模型信息
属性 |
详情 |
基础模型 |
CausalLM/7B-DPO-alpha |
数据集 |
JosephusCheung/GuanacoDataset、Open-Orca/OpenOrca、stingning/ultrachat 等 |
推理 |
false |
语言 |
英文、中文 |
许可证 |
wtfpl |
模型创建者 |
CausalLM |
模型名称 |
CausalLM 7B-DPO-alpha |
模型类型 |
llama |
任务类型 |
文本生成 |
提示模板 |
`< |
量化者 |
tastypear |
标签 |
llama、llama2、qwen |
模型来源
提示模板
<|im_start|>system
{system_message}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
许可证说明
源模型的创建者将其许可证列为 wtfpl
,因此本量化版本也使用相同的许可证。由于该模型基于 Llama 2,它也受 Meta Llama 2 许可证条款的约束,并且额外包含了相关的许可证文件。因此,应认为该模型声称同时受这两种许可证的约束。已联系 Hugging Face 以澄清双重许可问题,但他们尚未有官方立场。如有变化或 Meta 对此情况提供任何反馈,将相应更新此部分。
在此期间,有关许可的任何问题,特别是这两种许可证可能如何相互作用的问题,应直接咨询原始模型仓库:CausalLM's CausalLM 7B-DPO-alpha。
兼容性说明
这些量化的 GGUFv2 文件与 8 月 27 日之后的 llama.cpp 兼容,截至提交 d0cee0d。
它们也与许多第三方 UI 和库兼容 - 请参阅本 README 顶部的列表。
量化方法说明
点击查看详情
新的可用方法有:
- GGML_TYPE_Q4_K:“类型 1” 4 位量化,超级块包含 8 个块,每个块有 32 个权重。尺度和最小值用 6 位量化,最终使用 4.5 bpw。
- GGML_TYPE_Q5_K:“类型 1” 5 位量化。与 GGML_TYPE_Q4_K 具有相同的超级块结构,结果为 5.5 bpw。
请参考下面的提供文件表,了解哪些文件使用了哪些方法以及如何使用。
提供的文件
原始模型卡
原始模型详情
如需详细信息,请参考未经 DPO 训练的版本:CausalLM/7B。
模型 |
MT-Bench 得分 |
GPT-4 |
8.99 |
GPT-3.5-Turbo |
7.94 |
Zephyr-7b-β (过拟合) |
7.34 |
Zephyr-7b-α |
6.88 |
CausalLM/14B-DPO-α |
7.618868 |
CausalLM/7B-DPO-α |
7.038125 |
需要注意的是,这并不是在 CausalLM/14B & 7B 上继续训练的版本,而是在之前的训练分支上同时进行了 DPO 训练的优化版本,一些细节参数可能发生了变化。您仍然需要下载完整模型。
很快将会发布 beta 分支,采用了一些可能不利于某些任务的激进方法,以实现更好地符合人类偏好以接近和超过 GPT-3.5 基准。敬请期待。
免责声明
请注意,模型是在未经过滤的互联网数据上进行训练的。由于我们无法审核所有数据,可能会出现大量不良内容、色情、暴力和冒犯性语言,我们无法删除这些内容。因此,您仍然需要对模型的安全性进行自己的检查,并对输出中的关键词进行过滤。由于计算资源的限制,我们目前无法为模型的伦理和安全实施 RLHF,也无法对拒绝回答某些问题的 SFT 样本进行训练以进行限制性微调。
重要提示
⚠️ 重要提示
模型是在未经过滤的互联网数据上训练的,可能包含大量不良内容,你需要自行检查模型的安全性并过滤输出中的关键词。
💡 使用建议
由于计算资源限制,目前未对模型实施 RLHF 及相关训练,使用时请注意模型在伦理和安全方面的表现。