🚀 Phi-3-medium-4k-instruct-abliterated-v3
Phi-3-medium-4k-instruct-abliterated-v3 是基于特定方法对原始模型权重进行处理后的模型,通过正交化操作抑制了模型表达拒绝的能力,在其他方面与原始模型保持一致。本模型在文本生成等自然语言处理任务中具有一定的应用价值,且有望通过进一步探索挖掘更多潜力。
🚀 快速开始
你可以通过以下链接查看用于复现此方法的 Jupyter “食谱”,优化后的库即将推出:
My Jupyter "cookbook" to replicate the methodology can be found here, refined library coming soon
✨ 主要特性
Phi-3-abliterated 声明
构建这个模型花了我不少时间。距离我上次发布 Phi-3 模型已经过去一段时间了。过去,我在模型发布过程中不小心遗漏了一项必要环节——幻觉测试。
这个模型已经过测试,根据我的经验,虽然它比原始模型更有可能产生幻觉,但总体上和原始模型一样稳定。
现在新的 Phi-3 模型已经发布,我正在尽快完成这个消融过程,然后会尽快发布其他模型。 🏇
模型概述
本模型是 microsoft/Phi-3-medium-4k-instruct 的正交化 bfloat16 safetensor 权重版本,采用了基于预览论文/博客文章中描述的改进方法生成:'Refusal in LLMs is mediated by a single direction' ,建议你阅读该文章以了解更多。
“abliterated”、正交化和消融的含义
- 简要解释:这个模型对某些权重进行了处理,以“抑制”模型表达拒绝的能力。但这并不能保证它不会拒绝你、理解你的请求,它仍可能就伦理/安全等问题对你进行说教。除了将最强的拒绝方向正交化去除之外,它在其他方面的调整与原始的 70B 指令模型相同。
- 简单来说:这是我所能实现的最纯粹的无审查版本——在其他方面与原始模型没有新的或改变的行为。
- “abliterated” 的由来:这是我用原论文中用于指代去除特征的 “ablation” 一词创造的一个有趣双关语,特别用于将该模型与 “无审查” 微调模型区分开来。Ablate + obliterated = Abliterated。
方法学及意义
- 方法优势:对我而言,消融(或应用其逆过程 “增强” 的方法)似乎有助于引入或去除非常特定的特征,而这些特征若通过系统提示来鼓励或抑制,需要消耗大量的令牌。你只需在消融脚本中针对空白系统提示应用系统提示,在最终模型权重中对所需行为进行正交化处理即可。
- 与微调的比较:
- 消融:本质上更加精准,并且与微调相比,所需的数据量要少得多,这也是其主要优势。此外,它最大的价值在于在去除模型某种非常特定的不良行为倾向的同时,尽可能保留了原始模型的知识和训练成果(在这种情况下,是拒绝用户请求的倾向)。
- 微调:仍然非常有用,是进行广泛行为更改的首选方法。不过,使用消融/增强技术,你可能只需少量样本就能接近所需的行为。你还可以将正交化 -> 微调或反之作为模型优化的步骤。
- 版本说明:我之前曾在 Cognitive Computations 下为 Meta-Llama-3-8B 发布过一个消融模型的 V2 版本。但事实证明,对更大的模型尝试 V2 并不值得,我想在浪费计算资源去尝试可能并非更好的模型之前对其进行优化。不过,我对这个最新的方法非常满意,它似乎减少了幻觉的产生。为了表明这是一种比 8B V2 更先进的新方法,我决定效仿微软,直接跳到 V3 版本(实际上是因为许多仍在使用的旧版微软库会在操作系统名称中检查 'Windows 9' 来识别 Windows 95/98)。
注意事项
- 模型特性:由于该方法非常新颖,这个模型可能存在一些有趣的特性。我鼓励你使用该模型,并在社区板块发布你注意到的任何特性,这将有助于我们进一步了解这种正交化方法可能产生的副作用。
- 交流合作:如果你能进一步改进该模型,请分享你的成果!这只是使用消融方法的最基本方式,我相信还有其他尚未探索的可能性。此外,欢迎以任何方式与我交流。我在 Cognitive Computations Discord 上,也会关注社区板块,期待你的反馈!我希望看到这种方法以其他方式得到应用,并乐意在力所能及的范围内提供支持。
📄 许可证
本模型采用 MIT 许可证,详情请见:MIT License