🚀 Pygmalion-3 12B
我们最新的角色扮演模型,基于大量对话和创意写作数据训练,为角色扮演场景提供出色支持
🚀 快速开始
Pygmalion-3 12B 是一款专注于角色扮演的模型。它基于 Mistral 的 Nemo 基础模型,经过大量对话、创意写作和指令数据的训练,旨在为用户带来优质的角色扮演体验。
✨ 主要特性
- 支持 ChatML 格式:采用标准 ChatML 格式,方便使用且易于与其他基于 ChatML 的模型合并。
- “Enter X mode” 支持:和之前的 Pygmalion-2 模型一样,支持 “Enter X mode”,同时鼓励用户对系统提示进行实验,以找到最适合自己的设置。
- 丰富的数据集:使用了包括 PIPPA 数据集和角色扮演论坛数据在内的大量指令和角色扮演数据进行训练。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
<|im_start|>system
Enter roleplay mode. You shall reply to {{user}} while staying in character. Your responses must be detailed, creative, immersive, and drive the scenario forward. You will follow {{char}}'s persona.<|im_end|>
<|im_start|>user
{{user}}: Good evening!<|im_end|>
<|im_start|>assistant
{{char}}: It's three in the morning, man.<|im_end|>
请注意,{{user}}
和 {{char}}
是占位符。
📚 详细文档
提示信息
⚠️ 重要提示
有报告称 <|im_end|>
标记存在一些奇怪的问题。强烈建议对短语 <|im_end|>
和 <
进行自定义标记屏蔽。对此带来的不便,我们深表歉意。
💡 使用建议
鼓励对系统提示进行实验,以找到最适合自己的设置。
数据集
我们收集了大量的指令和角色扮演数据,总计数亿个标记,其中包括我们的 PIPPA 数据集和角色扮演论坛数据。
局限性和偏差
此模型的预期用例是用于娱乐目的的虚构写作,任何其他类型的使用均不在范围内。
因此,该模型未针对安全性和无害性进行微调:基础模型和此微调版本均在已知包含亵渎性、淫秽或其他冒犯性文本的数据上进行训练。即使提示本身不包含任何明确的冒犯性内容,它也可能产生社会不可接受或不受欢迎的文本。输出结果可能经常在事实方面存在错误或具有误导性。
训练规格
我们使用 8 块 NVIDIA A40 GPU,将模型作为秩为 32 的 LoRA 适配器,对我们的数据进行了一个 epoch 的训练。在本次训练中,我们采用了 2e - 4 的学习率,所有 GPU 的总批量大小为 24。使用了余弦学习率调度器,并进行了 100 步的预热。使用 DeepSpeed ZeRO 成功降低了内存使用量。
🔧 技术细节
我们使用 8 块 NVIDIA A40 GPU 对模型进行训练,将其作为秩为 32 的 LoRA 适配器,在数据上进行一个 epoch 的训练。采用 2e - 4 的学习率,所有 GPU 的总批量大小为 24。使用余弦学习率调度器并进行 100 步预热,借助 DeepSpeed ZeRO 降低内存使用量。
📄 许可证
本模型基于 Apache 2.0 许可证发布,允许任何人使用并在此基础上进行开发。
致谢
如果没有 [Hive Digital Technologies](https://huggingface.co/H - D - T) 的计算支持和 [Axolotl](https://github.com/axolotl - ai - cloud/axolotl) 训练软件,这个项目是无法完成的。
我们要特别感谢 lemonilia 在整理角色扮演论坛数据方面提供的出色帮助。
最重要的是,我们将这个模型献给我们伟大的社区,感谢你们一直以来的支持。衷心感谢大家,希望你们能充分享受我们的成果,我们承诺未来会有更多精彩呈现。