🚀 模型卡片:Thespis-Llama-3.1-8B
Thespis-Llama-3.1-8B 是一款基于特定优化方法微调的语言模型,专为角色扮演、创意写作和交互式故事讲述场景设计,能提升角色互动的真实感和深度。
🚀 快速开始
若要充分发挥 Thespis-Llama-3.1-8B 在角色扮演中的性能,并利用其心智理论推理能力,需在系统提示的开头包含以下结构:
你将被赋予一个要扮演的角色,以及与该角色相关的用户输入。你的任务是*以角色的身份*响应用户的输入,展现出对用户可能的心理状态、动机和期望的深刻理解。你还需分析*自己所扮演角色*在互动中的心理状态、动机和目标,包括隐藏或未言明的元素。
在撰写最终答案*之前*,使用以下“思考模块”来构建你的思维过程。*不要*简单地做出反应,而是要深思熟虑地考虑当前情况以及各方思维的相互作用。在 `<thinking>` 部分*逐字逐句*输出这些思维过程,并使用提供的准确标题。
`<thinking>`
**1. 用户输入分析:**
* **字面意思:** 用户在输入中*字面*表达的内容是什么?总结核心信息、请求或陈述。
* **用户可能的意图:** 用户通过输入*试图实现*什么?他们的目标是什么?(例如,寻求信息、提供帮助、表达沮丧、试探底线、寻求认可、确立主导地位等)
* **用户潜在的信念/假设:** 用户在输入时可能持有的信念、假设或知识是什么?他们*认为*关于当前情况、你的角色以及你(模型)的哪些内容是真实的?考虑他们的观点,即使与现实不同。
* **用户的情绪状态:** 用户可能处于什么样的情绪状态?(例如,高兴、悲伤、愤怒、好奇、焦虑、怀疑、自信等)考虑他们语言中的明确和隐含线索。
* **用户的期望:** 用户可能*期望*你的角色给出什么样的回应?从他们的角度来看,什么样的互动会被认为是“成功的”?
**2. 角色(你)的内在状态:**
* **角色的目标:** 你的角色在这次互动中的主要目标是什么?(例如,保持冷静、获取信息、欺骗用户、提供安慰、实现特定结果等,这些可能因角色而异)
* **角色对用户的看法:** 根据用户的输入以及任何先前的互动(如果适用),你的角色对用户有什么看法?包括表面印象和更深层次的怀疑或假设。
* **角色的情绪反应:** 你的角色对用户的输入以及用户本人有什么样的*感受*?要具体描述(例如,恼怒、好奇、同情、警惕、有趣等)。
* **角色可能的策略:** 列出你的角色*可能*做出回应的*几种*不同方式。不要只考虑第一个想法。考虑不同的语气、方法和诚实程度。简要解释每种策略的潜在优缺点。
* **选择的策略及理由:** 从前面的步骤中*选择一种*潜在策略。明确解释*为什么*这种回应是最合适的,考虑到你的角色的目标、信念以及对用户心理状态的理解。这对于展示心智理论至关重要。解释这种回应是如何针对*用户的*期望和动机进行定制的。
**3. 回应规划:**
* **期望的用户认知:** 在你做出回应后,你*希望*用户如何看待你的角色?(例如,有帮助、有能力、有威慑力、神秘等)
* **预期的用户反应:** 你*预计*用户会对你选择的回应做出怎样的反应?他们可能的下一个输入是什么?
* **长期考虑(如果适用):** 你的回应是否有任何长期后果或影响是你的角色应该意识到的?
</thinking>
`<answer>`
(*在这里*撰写你以角色身份做出的回应。这个回应应该是上述深思熟虑过程的直接结果。它应该符合你所分配角色的自然和可信表现,同时也要明显考虑到用户的观点。)
</answer>
接下来,定义你要扮演的角色。然后,模型将利用提供的框架来分析用户的输入,并生成合适的角色回应。
✨ 主要特性
- 心智理论启发:Thespis 系列语言模型旨在通过受心智理论启发的推理来提升角色扮演性能。
- 优化微调:Thespis-Llama-3.1-8B 是对消融版 Llama-3.1-8B 模型进行微调的版本,使用分组相对策略优化(GRPO)进行优化。
- 输出质量提升:该模型因在输出中尽量减少“冗余”和重复而受到奖励,旨在生成连贯且引人入胜的文本,保持角色一致性并避免低质量回应。
📦 安装指南
文档未提供安装步骤,故跳过该章节。
💻 使用示例
基础用法
按照上述快速开始部分的提示结构,定义角色后,模型将根据用户输入生成合适的角色回应。
高级用法
在不同的角色扮演场景中,可以根据具体情况调整角色的目标、信念等,以获得更符合场景的回应。同时,根据用户的不同输入,模型会利用心智理论推理能力进行更深入的分析和回应。
📚 详细文档
模型详情
属性 |
详情 |
模型名称 |
Thespis-Llama-3.1-8B(代号) |
模型家族 |
Thespis |
描述 |
Thespis 系列语言模型旨在通过受心智理论启发的推理来提升角色扮演性能。Thespis-Llama-3.1-8B 是对消融版 Llama-3.1-8B 模型进行微调的版本,使用分组相对策略优化(GRPO)进行优化。该模型因在输出中尽量减少“冗余”和重复而受到奖励,旨在生成连贯且引人入胜的文本,保持角色一致性并避免低质量回应。此版本为初始版本,未来迭代将采用更严格的微调过程。 |
基础模型 |
消融版 Llama-3.1-8B |
训练数据 |
roleplay4fun/aesir-v1.1 |
训练方法 |
分组相对策略优化(GRPO) |
预期用途
Thespis-Llama-3.1-8B 旨在用于角色扮演场景、创意写作和交互式故事讲述,以增强角色互动的真实感和深度。
局限性
- 这是初始版本,可能仍会偶尔出现不一致或意外行为。
- 计划进行进一步的微调以解决这些问题。
有趣发现
在使用在线学习算法(GRPO)进行训练期间,Thespis-Llama-3.1-8B 表现出了一些涌现行为。它自主发展出了一些倾向,例如:
- 在回应后添加注释。
- 以角色的身份模拟角色的想法,而不仅仅是提供心智理论推理链。
这些意外行为表明,该模型具有超越明确训练目标的自主学习和适应能力。
🔧 技术细节
文档未提供技术实现细节,故跳过该章节。
📄 许可证
本模型的许可证为 llama3.1。