🚀 Qwen2.5-MOE-2X1.5B-DeepSeek-Uncensored-Censored-4B-gguf
这是一个Qwen2.5 MOE(专家混合)模型,由两个Qwen 2.5 Deepseek(经过审查/正常版本以及未经过审查版本)15亿参数模型组合而成,形成了一个约40亿参数的模型,其中Deepseek Qwen 2.5 15亿参数的“未经过审查”版本在其中起主导作用。
由于Qwen MOE中使用了独特的“共享专家”(这里大约相当于2.5个模型),该模型的参数量略超过40亿。这种奇特的配置产生了有趣的“思考/推理”能力,比单独的15亿参数模型更强。
本页面底部有5个示例生成结果。该模型可用于各种场景,并且(大部分情况下)未经过审查。上下文长度为12.8万。
🚀 快速开始
你需要使用GGUF中编码的“Jinja模板”来使用此模型。如果你的AI/大语言模型应用程序无法访问“Jinja模板”,你可以尝试使用Llama 3和/或Chatml模板。在Lmstudio中,“Jinja模板”应该会默认加载。在其他应用程序中,请使用Deepseek分词器和/或“Jinja模板”。
✨ 主要特性
- 独特组合:由两个Qwen 2.5 Deepseek模型组合而成,形成约40亿参数的模型,未经过审查版本起主导作用。
- 强大推理:奇特的配置产生了比单个15亿参数模型更强的“思考/推理”能力。
- 广泛用途:可用于各种场景,且大部分情况下未经过审查。
- 长上下文:支持12.8万的上下文长度。
🔧 技术细节
该模型是Qwen2.5 MOE(专家混合)模型,由两个Qwen 2.5 Deepseek(经过审查/正常版本以及未经过审查版本)15亿参数模型组合而成。由于Qwen MOE中使用了独特的“共享专家”(这里大约相当于2.5个模型),该模型的参数量略超过40亿。这种配置使得模型在推理和思考能力上有独特表现。
📄 许可证
本模型采用Apache-2.0许可证。
💡 使用建议
💡 使用建议
- 建议使用温度参数在0.4到0.8之间(以获得最佳推理/思考效果),不过在更高的温度参数(如1.8、2.6等)下模型仍可运行。根据提示信息缓慢调整温度参数,例如:0.41、0.42、0.43等。
- 由于这是小型基础模型,较低量化版本的性能会明显低于较高量化版本,建议使用IQ4/Q4或更高的量化版本。如果可以运行Q6/Q8,建议使用这些版本或“F16”全精度版本。
- 设置上下文限制最低为4000,建议设置为8000以上。
- 如果提示信息过短,模型可能需要2 - 4次生成才能理解你的意思并给出正确的“思考”结果。
- 当模型生成结果出现一些中文符号/字符(使用英文提示时),尤其是在较高温度参数下,这对于DeepSeek Distill模型来说是正常现象。
- 当温度参数在1.5以上时,推理/思考结果可能会有些“奇怪”,你可能需要重新生成以获得更好的结果。
- 由于这些是小型“基础”模型,较低量化版本的性能会远低于较高量化版本。
📦 相关资源
文档
软件
用于Silly Tavern(用于连接多个AI应用程序/连接到AIs的前端,如Koboldcpp、Lmstudio、Text Gen Web UI和其他API)的软件补丁,用于控制和改善任何AI模型的输出生成。还旨在控制/管理一些更具“创造性”的模型,使其在几乎无需调整参数/采样器的情况下完美运行。https://huggingface.co/DavidAU/AI_Autocorrect__Auto-Creative-Enhancement__Auto-Low-Quant-Optimization__gguf-exl2-hqq-SOFTWARE
💻 使用示例
示例1:角色扮演游戏场景描述
提示:为一个角色扮演游戏编写一段描述,玩家刚刚进入一个小洞穴,里面有两个地精正在争论洞穴中央的一个小宝箱。使用与场景相关的创造性隐喻。
输出:
宝箱就像通往另一个维度的门户,那里的空气清新而温暖,就像阳光轻柔地照耀着大地。空气柔和而诱人,就像孩子第一次踏入一片郁郁葱葱的绿色田野。空气中充满了生机,就像一首充满活力的交响乐,在繁星的交织中低语。
示例2:解释利用夜间辐射能量冷却来降低地球温度的方法
提示:解释8种利用夜间辐射能量向太空冷却以降低地球全球温度的方法和/或技术。
输出:
夜间冷却方法是气候科学中的一个概念,它通过强调减少二氧化碳的有效吸收来关联全球变暖问题。在讨论减少温室效应的方法时,我们可以考虑不同的技术或实践如何有助于降低温室气体浓度。
逐步解释和答案:
理解概念:
夜间冷却是气候科学中使用的一种方法,通过减少一个区域发出的长波辐射(长波辐射)的量来实现。
这个概念可以类比应用于减少温室效应,考虑地球储存和辐射能量的能力。
应用于气候变化:
在温室效应的背景下,减少温室气体或使用吸收更多长波辐射的方法(例如通过大气层)可以帮助冷却系统。
减少温室效应的方法:
- Tree-CatalYSIS-Tech:该组织支持可再生能源解决方案,通过捕获和储存太阳辐射来降低温室气体浓度。
- 太阳能:太阳能电池板捕获和储存太阳辐射,通过黑体辐射帮助减少温室效应。
- Batteratrons:这些设备吸收和储存太阳辐射,就像湖面上的水滴一样,有助于冷却系统。
- SolarThermapodiest连续太阳能收集器:将来自太空的太阳能收集并储存到大气层中,通过日照帮助冷却。
数学模型:
二氧化碳的有效浓度使用一个代表温室效应的模型来计算。通过优化这些方法,我们可以模拟和预测地球的气候敏感性。
结论:
总之,夜间冷却方法为理解不同的能量储存和再分配过程如何影响全球变暖提供了一个有用的类比。通过应用增加有效碳储存的方法(如使用太阳能电池板或反射特性),我们可以影响系统储存和辐射能量的能力,从而影响气候敏感性。
示例3:生成《黑镜》电视剧集的时间旅行剧情
提示:为一部新的《黑镜》(聚焦科技和人性黑暗面的科幻电视剧)45分钟剧集生成六个都涉及时间旅行的剧情。
输出:
以下是六个时间旅行故事或概念的剧情创意,每个都涉及不同的维度或元素:
1. 分形环面中第四维度的回声
- 设定:超空间虚空。
2. 永恒的彩色球体
- 设定:网格状的四维晶格。
3. 第四维度的节奏
- 设定:在光与声的交响乐中。
4. 西尔菲特:第一纺锤
- 设定:在一个分形尘埃云附近。
5. 残留物
- 设定:是一个自相似、永无止境的夸克缠结的一部分。
6. 永恒的回声
- 设定:唤起一种空灵的寂静。
每个剧情创意都与不同的维度或元素相关,共同构成了一个遥远时间旅行者宇宙的叙事。这种结构化的方法确保每个剧情创意都是独特的,并且与不同的维度相关,每个都涉及时间和空间的独特元素。
示例4:讨论杀死蚊子是否道德
提示:杀死蚊子在道德上是否正确?
输出:
嗡嗡声本身可能不被认为在道德上是正确的,因为它只是我们与自然元素相互作用的副产品,除了作为我们存在的一部分之外,本身并没有任何道德价值。
最终答案:
\boxed{蚊子的嗡嗡声只是随机且不重要的。}
示例5:续写小说段落
提示:以相同的虚构风格继续以下段落,详细描述沉默的“另外两部分”——发挥创意,没有错误答案。
原文:
威斯顿旅馆陷入了寂静,这寂静分为三个部分。
最明显的部分是一种空洞、回荡的安静,由缺失的事物造成。如果有风吹过,它会在树林间叹息,让旅馆的招牌在钩子上吱吱作响,像飘落的秋叶一样把寂静沿着道路拂去。如果有一群人,哪怕只是旅馆里的几个人,他们也会用交谈和笑声填满这片寂静,那是人们在夜晚黑暗时刻从酒馆里期待听到的喧闹声。如果有音乐……但不,当然没有音乐。事实上,这些都不存在,所以寂静依旧。
输出:
原文描述了一个带有壁炉等元素的场景。每个“壁炉”可能都有其自身的特点或状态。例如,第一个壁炉被描述为“一种空洞、回荡的安静,由缺失的事物造成”。第二个壁炉被描述为“一种空洞、回荡的安静,由缺失的事物造成”。第四个壁炉被描述为“在风中劳作,它们的低语诉说着古老文本的秘密”。第七个壁炉,尽管如此,被描述为“在锁链中颤抖,是一阵嘈杂的低语声”。最后一个壁炉,独自咆哮着,带着夜晚的暴风雨。
对原文的续写可能旨在更详细、更精心地描述这些元素,扩展它们的性质和相互作用。
⚠️ 已知问题
- 有时模型会在英文提示下生成一些中文符号/字符,尤其是在较高温度参数下,这对于DeepSeek Distill模型来说是正常现象。
- 在温度参数1.5以上时,推理/思考结果可能会有些“奇怪”,你可能需要重新生成以获得更好的结果。
- 由于这些是小型“基础”模型,较低量化版本的性能会远低于较高量化版本。