AngelSlayer-12B开源语言模型 - 免费部署助力角色扮演与创意写作！

首页

Angelslayer 12B Unslop Mell RPMax DARKNESS

由 redrix 开发

一个通过mergekit合并的12B参数语言模型，专注于角色扮演和创意写作，具有稳定的长上下文处理能力和多样化的文风表现。

大型语言模型

Transformers

开源协议:Apache-2.0 #长上下文角色扮演 #创意写作增强 #负面偏好平衡

下载量 104

发布时间 : 12/5/2024

模型简介

该模型通过della_linear方法合并多个12B参数模型，旨在平衡负面特性与稳定性，特别适合角色扮演和创意写作场景。

模型特点

长上下文稳定性

在长达20k token的上下文中保持良好连贯性

多样化文风

能够生成风格多变的文本，避免GPT式套路化表达

负面特性平衡

通过DARKNESS模型抵消潜在的乐观偏见

温度敏感

在较高温度值(1.25)下表现更佳，能产生惊艳回答

模型能力

长文本生成

角色扮演对话

创意写作

上下文保持

多样化风格输出

使用案例

创意写作

小说创作

生成具有连贯情节和角色发展的长篇小说章节

能保持角色特征和故事一致性

角色扮演

互动对话

与用户进行角色扮演对话

能稳定保持角色特征和对话风格

🚀 AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS

他们说“他”将带来世界末日。她寻求的是理解，而非毁灭。

这是一个使用 mergekit 合并预训练语言模型得到的模型。这是作者的第四个模型，旨在测试 della_linear 方法。该模型的目的是利用 DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS 的负面特性来抵消潜在的积极偏差，同时保持稳定性。

🚀 快速开始

本模型是通过特定方式合并多个预训练语言模型得到的，你可以根据以下信息来使用和了解该模型。

✨ 主要特性

基于多个优质预训练模型合并，利用不同模型的特性。
尝试使用 della_linear 方法进行合并，探索新的模型组合方式。
在测试阶段表现出较好的上下文保持能力和角色贴合度，输出的散文丰富多样，较少出现 GPT 风格表述。

📦 安装指南

文档未提供具体安装步骤，暂不展示。

💻 使用示例

文档未提供代码示例，暂不展示。

📚 详细文档

测试阶段情况

(2024 年 12 月 18 日)： 该模型在处理上下文方面表现出色，能很好地贴合角色和提示。输出的散文丰富多样，大多没有 GPT 风格的表述。唯一的问题是，模型似乎总是以相似的方式解释输入（可能是由于 self_attn 层的原因）。因此，即使每次滑动的措辞不同，输出也总是倾向于遵循某个特定的主题或方向（响应越长，开头设定的方向偏差越大）。一个奇特的现象是，错误是可预测的——如果模型错误拼写了用户的名字（比如打乱字母顺序等；作者自己的名字比较复杂），那么在后续的滑动中，它总是会错误拼写这个名字。但它会自动修正。不过，如果名字的第一次出现拼写错误，后续的实例会被修正。重复情况较少，如果出现重复，可以启用 DRY。XTC 似乎效果不错。

作者考虑通过调整模型顺序来平衡 inflatebot/MN-12B-Mag-Mell-R1 的影响，或者使用该模型的基础模型，通过不同的合并方法重新合并整个模型，以缓解这个问题。

参数设置

上下文大小： 建议不超过 20k，否则连贯性可能会下降。
聊天模板： ChatML
采样器： Temperature-Last 设置为 1 - 1.25，Min-P 设置为 0.1 - 0.25 是可行的，但尚未进行微调。如果出现重复情况，启用 DRY。XTC 似乎效果良好。

量化信息

静态 GGUF 量化版本可在 mradermacher/AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS-GGUF 获取。
iMatrix 量化版本可在 mradermacher/AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS-i1-GGUF 获取。

合并详情

合并方法

该模型使用 della_linear 合并方法，以 TheDrummer/UnslopNemo-12B-v4.1 为基础模型进行合并。

合并的模型

以下模型参与了合并：

配置信息

以下是用于生成该模型的 YAML 配置：

models:
  - model: TheDrummer/UnslopNemo-12B-v4.1
    parameters:
      weight: 0.25
      density: 0.6
  - model: ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2
    parameters:
      weight: 0.25
      density: 0.6
  - model: DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
    parameters:
      weight: 0.2
      density: 0.4
  - model: inflatebot/MN-12B-Mag-Mell-R1
    parameters:
      weight: 0.30
      density: 0.7
base_model: TheDrummer/UnslopNemo-12B-v4.1
merge_method: della_linear
dtype: bfloat16
chat_template: "chatml"
tokenizer_source: union
parameters:
  normalize: false
  int8_mask: true
  epsilon: 0.05
  lambda: 1

🔧 技术细节

该模型是使用 mergekit 工具，通过 della_linear 方法合并多个预训练语言模型得到的。在合并过程中，不同模型的权重和密度等参数被精心设置，以达到预期的效果。同时，在测试过程中发现了模型在输入解释和输出方向上的一些特点，并针对这些问题提出了可能的解决方案。

📄 许可证

本模型采用 apache-2.0 许可证。

模型信息表格

属性	详情
基础模型	inflatebot/MN-12B-Mag-Mell-R1、TheDrummer/UnslopNemo-12B-v4.1、ArliAI/Mistral-Nemo-12B-ArliAI-RPMax-v1.2、DavidAU/MN-GRAND-Gutenberg-Lyra4-Lyra-12B-DARKNESS
库名称	transformers
标签	mergekit、merge、12b、chat、roleplay、creative-writing、DELLA-linear
许可证	apache-2.0
新版本	redrix/AngelSlayer-12B-Unslop-Mell-RPMax-DARKNESS-v2