Phi-3-medium-4k-instruct-abliterated-v3-GGUF开源模型 - 抑制拒绝倾向保留原模型知识能力

首页

Phi 3 Medium 4k Instruct Abliterated V3 GGUF

由 failspy 开发

这是microsoft/Phi-3-medium-4k-instruct的正交化版本，通过特定技术抑制了模型的拒绝倾向，尽可能保留了原始模型的知识和能力。

大型语言模型其他开源协议:MIT #拒绝抑制优化 #正交化权重 #低幻觉文本生成

下载量 85

发布时间 : 5/22/2024

模型简介

该模型是基于Phi-3-medium-4k-instruct的正交化版本，主要特点是移除了模型表达拒绝的能力，使其更倾向于接受和执行用户请求，而不改变其他行为。

模型特点

正交化处理

通过正交化技术移除了模型表达拒绝的能力，使其更倾向于接受和执行用户请求。

保留原始知识

在移除拒绝倾向的同时，尽可能保留了原始模型的知识和能力。

高效优化

相比微调，该方法需要更少的样本量，更具针对性。

模型能力

文本生成

自然语言处理

代码生成

使用案例

对话系统

用户请求处理

处理用户的各种请求，减少拒绝倾向。

模型更倾向于接受和执行用户请求，而非拒绝。

内容生成

创意写作

生成创意文本内容，如故事、诗歌等。

模型能够生成多样化的创意内容。

🚀 Phi-3-medium-4k-instruct-abliterated-v3

Phi-3-medium-4k-instruct-abliterated-v3 是基于特定方法对原始模型权重进行处理后的模型，通过正交化操作抑制了模型表达拒绝的能力，在其他方面与原始模型保持一致。本模型在文本生成等自然语言处理任务中具有一定的应用价值，且有望通过进一步探索挖掘更多潜力。

🚀 快速开始

你可以通过以下链接查看用于复现此方法的 Jupyter “食谱”，优化后的库即将推出： My Jupyter "cookbook" to replicate the methodology can be found here, refined library coming soon

✨ 主要特性

Phi-3-abliterated 声明

构建这个模型花了我不少时间。距离我上次发布 Phi-3 模型已经过去一段时间了。过去，我在模型发布过程中不小心遗漏了一项必要环节——幻觉测试。

这个模型已经过测试，根据我的经验，虽然它比原始模型更有可能产生幻觉，但总体上和原始模型一样稳定。

现在新的 Phi-3 模型已经发布，我正在尽快完成这个消融过程，然后会尽快发布其他模型。 🏇

模型概述

本模型是 microsoft/Phi-3-medium-4k-instruct 的正交化 bfloat16 safetensor 权重版本，采用了基于预览论文/博客文章中描述的改进方法生成：'Refusal in LLMs is mediated by a single direction' ，建议你阅读该文章以了解更多。

“abliterated”、正交化和消融的含义

简要解释：这个模型对某些权重进行了处理，以“抑制”模型表达拒绝的能力。但这并不能保证它不会拒绝你、理解你的请求，它仍可能就伦理/安全等问题对你进行说教。除了将最强的拒绝方向正交化去除之外，它在其他方面的调整与原始的 70B 指令模型相同。
简单来说：这是我所能实现的最纯粹的无审查版本——在其他方面与原始模型没有新的或改变的行为。
“abliterated” 的由来：这是我用原论文中用于指代去除特征的 “ablation” 一词创造的一个有趣双关语，特别用于将该模型与 “无审查” 微调模型区分开来。Ablate + obliterated = Abliterated。

方法学及意义

方法优势：对我而言，消融（或应用其逆过程 “增强” 的方法）似乎有助于引入或去除非常特定的特征，而这些特征若通过系统提示来鼓励或抑制，需要消耗大量的令牌。你只需在消融脚本中针对空白系统提示应用系统提示，在最终模型权重中对所需行为进行正交化处理即可。
与微调的比较：
- 消融：本质上更加精准，并且与微调相比，所需的数据量要少得多，这也是其主要优势。此外，它最大的价值在于在去除模型某种非常特定的不良行为倾向的同时，尽可能保留了原始模型的知识和训练成果（在这种情况下，是拒绝用户请求的倾向）。
- 微调：仍然非常有用，是进行广泛行为更改的首选方法。不过，使用消融/增强技术，你可能只需少量样本就能接近所需的行为。你还可以将正交化 -> 微调或反之作为模型优化的步骤。
版本说明：我之前曾在 Cognitive Computations 下为 Meta-Llama-3-8B 发布过一个消融模型的 V2 版本。但事实证明，对更大的模型尝试 V2 并不值得，我想在浪费计算资源去尝试可能并非更好的模型之前对其进行优化。不过，我对这个最新的方法非常满意，它似乎减少了幻觉的产生。为了表明这是一种比 8B V2 更先进的新方法，我决定效仿微软，直接跳到 V3 版本（实际上是因为许多仍在使用的旧版微软库会在操作系统名称中检查 'Windows 9' 来识别 Windows 95/98）。

注意事项

模型特性：由于该方法非常新颖，这个模型可能存在一些有趣的特性。我鼓励你使用该模型，并在社区板块发布你注意到的任何特性，这将有助于我们进一步了解这种正交化方法可能产生的副作用。
交流合作：如果你能进一步改进该模型，请分享你的成果！这只是使用消融方法的最基本方式，我相信还有其他尚未探索的可能性。此外，欢迎以任何方式与我交流。我在 Cognitive Computations Discord 上，也会关注社区板块，期待你的反馈！我希望看到这种方法以其他方式得到应用，并乐意在力所能及的范围内提供支持。