🚀 QwQ-32B-ArliAI-RpR-v4
QwQ-32B-ArliAI-RpR-v4是基于QwQ模型微调的角色扮演推理模型,减少了重复内容,增加了训练序列长度,适用于长对话场景。
🚀 快速开始
你可以在 https://arliai.com 访问该模型。同时,我们也有一个模型排名页面 https://www.arliai.com/models-ranking。
✨ 主要特性
RpR v4 版本的改进
- 减少重复和模仿:为了增强RpR v3的创造性和跳出常规思维的能力,采用了更先进的过滤方法,以去除大语言模型重复相似短语或代用户发言的示例。若出现重复或模仿情况,这是由于基础QwQ模型的训练方式所致,而非RpR数据集的问题。
- 增加训练序列长度:将训练序列长度增加到16K,以提高模型在长对话中的感知和记忆能力。
RpR 系列概述:基于RPMax的推理能力构建
RpR(RolePlay with Reasoning)是ArliAI推出的一系列新模型。该系列直接基于为RPMax系列开发的成功数据集整理方法和训练方法。
- 数据集使用:RpR模型使用了与RPMax相同的经过整理和去重的角色扮演和创意写作数据集,注重多样性,以确保高创造性并减少跨上下文重复。熟悉RPMax的用户会发现其独特的、不重复的写作风格,这与其他为角色扮演微调的模型不同。
- 推理数据集的创建:由于现有的指令和创意写作推理数据集每个示例只有一个响应,在长多轮对话中会导致输出质量下降。因此,Arli AI决定创建一个能够进行长多轮对话推理的真实角色扮演模型。为了创建RpR,首先将现有的优质RPMax数据集重新处理成推理数据集。通过使用基础QwQ指令模型为RPMax数据集中的每个对话示例创建推理过程,然后进一步优化,确保推理与数据集中的实际响应示例一致。
- 训练方式:为了确保模型在推理时遇到推理块的方式与训练时相同,即不在上下文中看到推理块,训练过程使用了axolotl和无手动模板的分段数据集。这样训练出的QwQ模型在长多轮角色扮演对话中能够产生连贯且有趣的输出,这是我们所知的第一个真正经过正确训练的用于角色扮演和创意写作的推理模型。
📚 详细文档
模型描述
QwQ - 32B - ArliAI - RpR - v4是RpR系列的第三个版本。它是一个320亿参数的模型,基于精心整理的RPMax数据集,使用RpR数据集进行微调,结合了在长多轮对话中保持推理能力的技术。
推荐采样器
- RpR模型与重复惩罚类型的采样器配合效果不佳,即使是更先进的采样器,如XTC或DRY。
- 它在简单的采样器设置下效果最佳,并且允许进行长时间的推理(高最大令牌数)。
- 你也可以下载本仓库文件部分上传的ST主导出文件。
推荐首先使用以下设置:
- 温度(Temperature):1.0
- 最小概率(MinP):0.02
- TopK:40
- 响应令牌数(Response Tokens):2048+
规格参数
属性 |
详情 |
基础模型 |
QwQ - 32B |
最大上下文长度 |
使用Yarn时最大128K(与基础QwQ相同,原生为32K) |
参数数量 |
32B |
是否为推理模型 |
是 |
训练详情
- 序列长度:16384
- 训练轮数:1轮(继承自RPMax方法)
- 微调方法:RS - QLORA+(秩稳定LoRA + LoRA Plus 8x)
- 秩/阿尔法(Rank/Alpha):128 - 秩 128 - 阿尔法
- 学习率:0.00001
- 调度器:Rex
- 梯度累积:32
训练图表

量化版本
- BF16:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4)
- GGUF:[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF)
在ST中正确使用推理模型的方法

对于一般的推理模型,你需要确保设置如下:
- 前缀仅设置为
<think>
,后缀仅设置为 </think>
,且无空格或换行符。
- 回复以
<think>
开头。
- 取消勾选“始终添加角色名称”。
- “包含名称”设置为“从不”。
- 聊天模板应符合所使用的模型。
⚠️ 重要提示
推理模型只有在“包含名称”设置为“从不”时才能正常工作,因为它们总是期望用户回合的结束符(eos token)后跟 <think>
标记,以便在输出响应之前开始推理。如果启用“包含名称”,则会在末尾附加角色名称,如“Seraphina:<eos_token>”,这会使模型混淆是应该先响应还是先推理。
如果看不到推理内容包裹在思考块中,可能是设置仍然错误,未遵循示例,或者你的ST版本过旧,不支持推理块自动解析。如果整个响应都在推理块中,则 <think>
和 </think>
推理标记的后缀和前缀可能有额外的空格或换行符,或者该模型不是足够智能的推理模型,无法始终将推理内容放在这些标记之间。
正确设置后的效果

RPMax 基础(数据集和训练理念)
目标:减少重复和提高创造性
用于RPMax和RpR的数据集整理目标是减少重复,并提高模型在不同场景下进行创意写作的能力。这意味着模型在不同情况下输出的响应差异很大,不会陷入可预测的套路。
重复和创造性的定义
- 创造性:指模型能够产生的输出多样性,不应将创造性与优美的写作风格混淆。一个写作风格优美的模型不一定是有创造性的模型。
- 重复的类型:
- 上下文内重复:指模型在单个对话中重复相同的短语。例如,模型多次提及角色“甩了甩头发然后……”。这种重复在某些情况下可能是有意的,用于突出角色特征,因此消除这种重复并不总是能提高模型的写作能力。RPMax和RpR目前尚未专注于消除这种类型的重复,因此输出中可能会出现一些上下文内重复。
- 跨上下文重复:指模型在非常不同的情况下重复相同的短语或套路。例如,在不同的对话中重复“我脊梁骨发凉”这样的短语。这种重复是有害的,表明模型过度拟合了训练数据集中的“创意写作”风格。模型在写作故事时倾向于选择相似的重复名称,如“elara”和“whispering woods”,也是跨上下文重复的表现。RPMax和RpR数据集整理的主要目标是通过减少跨上下文重复来创建一个高度创造性的模型。
数据集整理
基于该数据集训练的模型(包括RPMax和现在的RpR)的成功归功于训练方法和为微调创建的独特数据集。该数据集包含尽可能多的开源创意写作和角色扮演数据集(均来自Hugging Face),并经过整理,剔除了纯合成生成的数据集,因为这些数据集往往会降低模型的性能,使模型学习到类似GPT的风格,而不是有所帮助。然后使用Llama 3.1 8B(或类似能力的模型)创建数据集中所描绘的角色和场景的数据库,用于对这些数据集进行去重,确保每个角色或场景只有一个条目。
微调的黄金法则
与预训练阶段不同,微调模型的黄金法则不是数据量,而是质量优于数量。因此,这里使用的数据集实际上比包含重复角色和场景的数据集小几个数量级,但最终得到的模型不会让人感觉只是另一个创意写作/角色扮演模型的“近亲繁殖”。
训练参数和非常规方法
通常的训练方法是使用低学习率和高梯度累积,以获得更好的损失稳定性,并进行多轮训练,直到损失可接受。然而,RPMax和RpR方法仅使用一轮训练、低梯度累积和高于正常水平的学习率。训练过程中的损失曲线不稳定,波动较大,但平滑后会随时间稳定下降。理论上,这允许模型从数据集中的每个单独示例中学习更多,并且通过不使用多轮训练让模型多次看到相同的示例,避免模型过度依赖和强化单个角色或故事套路。训练过程中损失的波动是因为模型在训练新条目时,从未见过类似示例,因此无法预测与示例条目相似的答案。相对较高的最终损失(1.0或略高)是可以接受的,因为目标不是创建一个输出与训练数据集完全相同的模型,而是创建一个有足够创造性来形成自己响应风格的模型。
💡 试用建议
模型偏好因人而异,建议你亲自试用QwQ - 32B - ArliAI - RpR - v4。无论好坏,你的反馈都非常有价值,将有助于我们改进未来的RPMax和RpR模型。你可以在 https://arliai.com 访问该模型,也可以在我们的新Discord服务器 https://discord.com/invite/t75KbPgwhk 或Reddit子版块 https://www.reddit.com/r/ArliAI/ 提问。
模型图片
图片使用Arli AI图像生成工具生成 [https://www.arliai.com/image - generation](https://www.arliai.com/image - generation)
📄 许可证
本项目采用Apache - 2.0许可证。