QwQ-32B-ArliAI-RpR-v4开源模型 - 助力角色扮演与创意写作，减少重复提创意

首页

Qwq 32B ArliAI RpR V4

由 ArliAI 开发

QwQ-32B-ArliAI-RpR-v4是ArliAI推出的高性能角色扮演与创意写作模型，基于QwQ-32B微调，专注于减少重复和提升创意输出。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #长序列推理 #角色扮演优化 #创意写作

下载量 240

发布时间 : 5/22/2025

模型简介

该模型是RpR系列的第三次发布，专为长多轮角色扮演对话设计，采用推理技术保持响应连贯性，适合创意写作和角色扮演场景。

模型特点

减少重复与模仿

采用先进过滤方法减少语言模型重复相似短语或替用户发言的行为，提升输出多样性。

长序列训练

训练序列长度增至16K，提升在较长对话中的意识和记忆能力。

推理能力优化

通过重新处理数据集为推理格式，确保模型在长对话中保持连贯且有趣的响应。

创意写作风格

基于RPMax数据集整理方法，确保高度创意并最小化跨上下文重复。

模型能力

长文本生成

角色扮演对话

创意写作

多轮对话推理

使用案例

角色扮演

多轮角色互动

在长对话中保持角色一致性和情节连贯性

生成富有创意的角色响应，避免重复套路

创意写作

故事生成

协助作者生成独特的故事段落和情节发展

输出多样化的创意内容，减少跨上下文重复

🚀 QwQ-32B-ArliAI-RpR-v4

QwQ-32B-ArliAI-RpR-v4是基于QwQ模型微调的角色扮演推理模型，减少了重复内容，增加了训练序列长度，适用于长对话场景。

🚀 快速开始

你可以在 https://arliai.com 访问该模型。同时，我们也有一个模型排名页面 https://www.arliai.com/models-ranking。

✨ 主要特性

RpR v4 版本的改进

减少重复和模仿：为了增强RpR v3的创造性和跳出常规思维的能力，采用了更先进的过滤方法，以去除大语言模型重复相似短语或代用户发言的示例。若出现重复或模仿情况，这是由于基础QwQ模型的训练方式所致，而非RpR数据集的问题。
增加训练序列长度：将训练序列长度增加到16K，以提高模型在长对话中的感知和记忆能力。

RpR 系列概述：基于RPMax的推理能力构建

RpR（RolePlay with Reasoning）是ArliAI推出的一系列新模型。该系列直接基于为RPMax系列开发的成功数据集整理方法和训练方法。

数据集使用：RpR模型使用了与RPMax相同的经过整理和去重的角色扮演和创意写作数据集，注重多样性，以确保高创造性并减少跨上下文重复。熟悉RPMax的用户会发现其独特的、不重复的写作风格，这与其他为角色扮演微调的模型不同。
推理数据集的创建：由于现有的指令和创意写作推理数据集每个示例只有一个响应，在长多轮对话中会导致输出质量下降。因此，Arli AI决定创建一个能够进行长多轮对话推理的真实角色扮演模型。为了创建RpR，首先将现有的优质RPMax数据集重新处理成推理数据集。通过使用基础QwQ指令模型为RPMax数据集中的每个对话示例创建推理过程，然后进一步优化，确保推理与数据集中的实际响应示例一致。
训练方式：为了确保模型在推理时遇到推理块的方式与训练时相同，即不在上下文中看到推理块，训练过程使用了axolotl和无手动模板的分段数据集。这样训练出的QwQ模型在长多轮角色扮演对话中能够产生连贯且有趣的输出，这是我们所知的第一个真正经过正确训练的用于角色扮演和创意写作的推理模型。

📚 详细文档

模型描述

QwQ - 32B - ArliAI - RpR - v4是RpR系列的第三个版本。它是一个320亿参数的模型，基于精心整理的RPMax数据集，使用RpR数据集进行微调，结合了在长多轮对话中保持推理能力的技术。

规格参数

属性	详情
基础模型	QwQ - 32B
最大上下文长度	使用Yarn时最大128K（与基础QwQ相同，原生为32K）
参数数量	32B
是否为推理模型	是

训练详情

序列长度：16384
训练轮数：1轮（继承自RPMax方法）
微调方法：RS - QLORA+（秩稳定LoRA + LoRA Plus 8x）
秩/阿尔法（Rank/Alpha）：128 - 秩 128 - 阿尔法
学习率：0.00001
调度器：Rex
梯度累积：32

训练图表

训练损失评估损失

量化版本

BF16：[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4)
GGUF：[https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF](https://huggingface.co/ArliAI/QwQ - 32B - ArliAI - RpR - v4 - GGUF)

在ST中正确使用推理模型的方法

RpR ST设置

对于一般的推理模型，你需要确保设置如下：

前缀仅设置为 <think>，后缀仅设置为 </think>，且无空格或换行符。
回复以 <think> 开头。
取消勾选“始终添加角色名称”。
“包含名称”设置为“从不”。
聊天模板应符合所使用的模型。

⚠️ 重要提示

推理模型只有在“包含名称”设置为“从不”时才能正常工作，因为它们总是期望用户回合的结束符（eos token）后跟 <think> 标记，以便在输出响应之前开始推理。如果启用“包含名称”，则会在末尾附加角色名称，如“Seraphina:<eos_token>”，这会使模型混淆是应该先响应还是先推理。

如果看不到推理内容包裹在思考块中，可能是设置仍然错误，未遵循示例，或者你的ST版本过旧，不支持推理块自动解析。如果整个响应都在推理块中，则 <think> 和 </think> 推理标记的后缀和前缀可能有额外的空格或换行符，或者该模型不是足够智能的推理模型，无法始终将推理内容放在这些标记之间。

正确设置后的效果

RpR示例响应

RPMax 基础（数据集和训练理念）

目标：减少重复和提高创造性

用于RPMax和RpR的数据集整理目标是减少重复，并提高模型在不同场景下进行创意写作的能力。这意味着模型在不同情况下输出的响应差异很大，不会陷入可预测的套路。

重复和创造性的定义

创造性：指模型能够产生的输出多样性，不应将创造性与优美的写作风格混淆。一个写作风格优美的模型不一定是有创造性的模型。
重复的类型：
- 上下文内重复：指模型在单个对话中重复相同的短语。例如，模型多次提及角色“甩了甩头发然后……”。这种重复在某些情况下可能是有意的，用于突出角色特征，因此消除这种重复并不总是能提高模型的写作能力。RPMax和RpR目前尚未专注于消除这种类型的重复，因此输出中可能会出现一些上下文内重复。
- 跨上下文重复：指模型在非常不同的情况下重复相同的短语或套路。例如，在不同的对话中重复“我脊梁骨发凉”这样的短语。这种重复是有害的，表明模型过度拟合了训练数据集中的“创意写作”风格。模型在写作故事时倾向于选择相似的重复名称，如“elara”和“whispering woods”，也是跨上下文重复的表现。RPMax和RpR数据集整理的主要目标是通过减少跨上下文重复来创建一个高度创造性的模型。

数据集整理

基于该数据集训练的模型（包括RPMax和现在的RpR）的成功归功于训练方法和为微调创建的独特数据集。该数据集包含尽可能多的开源创意写作和角色扮演数据集（均来自Hugging Face），并经过整理，剔除了纯合成生成的数据集，因为这些数据集往往会降低模型的性能，使模型学习到类似GPT的风格，而不是有所帮助。然后使用Llama 3.1 8B（或类似能力的模型）创建数据集中所描绘的角色和场景的数据库，用于对这些数据集进行去重，确保每个角色或场景只有一个条目。

微调的黄金法则

与预训练阶段不同，微调模型的黄金法则不是数据量，而是质量优于数量。因此，这里使用的数据集实际上比包含重复角色和场景的数据集小几个数量级，但最终得到的模型不会让人感觉只是另一个创意写作/角色扮演模型的“近亲繁殖”。

训练参数和非常规方法

通常的训练方法是使用低学习率和高梯度累积，以获得更好的损失稳定性，并进行多轮训练，直到损失可接受。然而，RPMax和RpR方法仅使用一轮训练、低梯度累积和高于正常水平的学习率。训练过程中的损失曲线不稳定，波动较大，但平滑后会随时间稳定下降。理论上，这允许模型从数据集中的每个单独示例中学习更多，并且通过不使用多轮训练让模型多次看到相同的示例，避免模型过度依赖和强化单个角色或故事套路。训练过程中损失的波动是因为模型在训练新条目时，从未见过类似示例，因此无法预测与示例条目相似的答案。相对较高的最终损失（1.0或略高）是可以接受的，因为目标不是创建一个输出与训练数据集完全相同的模型，而是创建一个有足够创造性来形成自己响应风格的模型。

💡 试用建议

模型偏好因人而异，建议你亲自试用QwQ - 32B - ArliAI - RpR - v4。无论好坏，你的反馈都非常有价值，将有助于我们改进未来的RPMax和RpR模型。你可以在 https://arliai.com 访问该模型，也可以在我们的新Discord服务器 https://discord.com/invite/t75KbPgwhk 或Reddit子版块 https://www.reddit.com/r/ArliAI/ 提问。