🚀 MN-12B-Mag-Mell-R1
MN-12B-Mag-Mell-R1 是使用 mergekit 对预训练语言模型进行合并得到的模型。它结合了多个优秀模型的特点,在世界构建能力和散文创作方面表现出色。
欢迎,勇敢的人;你已经走了很长的路。
⚠️ 重要提示
新用户请注意:这里的“R1”表示“版本 1”。此模型早于 DeepSeek 的 R1 版本;DeepSeek 无意中让这种版本命名方案变得很麻烦!
我提供的官方 Q4_K_M、Q6_K 和 Q_8 GGUF 格式
mradermacher 提供的更多版本
toastypigeon 提供的官方 EXL2 格式
✨ 主要特性
- 多模型融合:融合了多个预训练语言模型的优势,如 IntervitensInc/Mistral-Nemo-Base-2407-chatml、nbeerbower/mistral-nemo-bophades-12B 等。
- 出色的世界构建能力:在测试中展现出了超越同类模型的世界构建能力,可与老牌冒险模型如 Tiefighter 相媲美。
- 优质的散文创作:生成的散文“杂乱感”极少,经常能构思出令人惊叹的隐喻。
📚 详细文档
使用详情
采样器设置
Mag Mell R1 在温度(Temp)为 1.25 和最小概率(MinP)为 0.2 的条件下进行了测试。在长度达到 10K 时,这种设置相当稳定,但可能“热度”过高。
如果出现连贯性问题,可尝试 增加 最小概率(MinP)或 降低 温度(Temperature)。
其他采样器通常不是必需的。XTC 采样器会破坏输出结果;DRY 采样器若谨慎使用是可以的;其他惩罚类型的采样器建议避免使用。
格式设置
Mag Mell 的基础模型是 Mistral-Nemo-Base-2407-chatml,因此建议使用 ChatML 格式。
早期测试版本存在令牌泄漏的倾向,但这个问题应该已经基本解决。最近(2024 年 12 月 18 日)发现,缓存量化可能会导致或加剧这个问题。
合并详情
Mag Mell 是一个多阶段合并模型,灵感来源于 Tiefighter 和 Umbral Mind 等超融合模型。其目标是创建一个适用于任何虚构、创意场景的通用“Nemo 最佳”模型。
基于三个类别选择了 6 个模型;然后将它们两两配对,通过层加权 SLERP 方法合并,创建中间“专家模型”,并在各自领域进行评估。
接着,使用 DARE-TIES 方法将这些专家模型合并到基础模型中,并选择了合适的超参数以减少三个领域重叠造成的干扰。这种方法的理念是提取每个组件的最佳特性,生成的模型任务向量能发挥出超越各部分之和的效果。
三个专家模型如下:
从 Nemo 微调模型开始大量出现时,我就一直梦想着进行这次合并。通过测试,Mag Mell 展现出了同类模型中无与伦比的世界构建能力,其生成的散文“杂乱感”极少(考虑到没有进行微调,这已经相当不错了),还经常构思出令人惊叹的隐喻,让我们一直为之惊叹。
我不想自吹自擂,但我真的为这个模型的成果感到骄傲。请留下您的反馈,无论是好是坏。
在此,一如既往地特别感谢 Toaster 的反馈,Fizz 对计算资源的资助,以及 KoboldAI Discord 提供的资源。
合并方法
此模型使用 DARE TIES 合并方法,以 IntervitensInc/Mistral-Nemo-Base-2407-chatml 为基础模型进行合并。
合并的模型
以下模型参与了合并:
- IntervitensInc/Mistral-Nemo-Base-2407-chatml
- nbeerbower/mistral-nemo-bophades-12B
- nbeerbower/mistral-nemo-wissenschaft-12B
- elinas/Chronos-Gold-12B-1.0
- Fizzarolli/MN-12b-Sunrose
- nbeerbower/mistral-nemo-gutenberg-12B-v4
- anthracite-org/magnum-12b-v2.5-kto
配置
以下是用于生成此模型的 YAML 配置:
僧侣:
models:
- model: nbeerbower/mistral-nemo-bophades-12B
- model: nbeerbower/mistral-nemo-wissenschaft-12B
merge_method: slerp
base_model: nbeerbower/mistral-nemo-bophades-12B
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
英雄:
models:
- model: elinas/Chronos-Gold-12B-1.0
- model: Fizzarolli/MN-12b-Sunrose
merge_method: slerp
base_model: elinas/Chronos-Gold-12B-1.0
parameters:
t: [0.1, 0.2, 0.4, 0.6, 0.6, 0.4, 0.2, 0.1]
dtype: bfloat16
tokenizer_source: base
神灵:
models:
- model: nbeerbower/mistral-nemo-gutenberg-12B-v4
- model: anthracite-org/magnum-12b-v2.5-kto
merge_method: slerp
base_model: nbeerbower/mistral-nemo-gutenberg-12B-v4
parameters:
t: [0, 0.1, 0.2, 0.25, 0.25, 0.2, 0.1, 0]
dtype: bfloat16
tokenizer_source: base
Mag Mell:
models:
- model: monk
parameters:
density: 0.7
weight: 0.5
- model: hero
parameters:
density: 0.9
weight: 1
- model: deity
parameters:
density: 0.5
weight: 0.7
merge_method: dare_ties
base_model: IntervitensInc/Mistral-Nemo-Base-2407-chatml
tokenizer_source: base
在爱尔兰神话中,Mag Mell(现代拼写:Magh Meall,意为“宜人的平原”)是凯尔特异世界的名称之一,这是一个可以通过死亡和/或荣耀到达的神话领域……在现存的任何神话记载中,它从未被明确表述为来世;相反,它通常被描绘成一个由神灵居住的天堂,偶尔会有一些勇敢的凡人到访。以岛屿的形式出现时,它曾被各种传奇的爱尔兰英雄和僧侣造访,构成了冒险神话或 echtrae 的基础……
模型信息
属性 |
详情 |
基础模型 |
IntervitensInc/Mistral-Nemo-Base-2407-chatml、nbeerbower/mistral-nemo-bophades-12B、nbeerbower/mistral-nemo-wissenschaft-12B、elinas/Chronos-Gold-12B-1.0、Fizzarolli/MN-12b-Sunrose、nbeerbower/mistral-nemo-gutenberg-12B-v4、anthracite-org/magnum-12b-v2.5-kto |
库名称 |
transformers |
标签 |
mergekit、merge |