🚀 MAI-DS-R1模型
MAI-DS-R1是一款基于DeepSeek-R1的推理模型,由微软AI团队进行后训练。该模型在保持推理能力和出色性能的同时,提升了在受限主题上的响应能力,并优化了风险状况。
🚀 快速开始
MAI-DS-R1保留了DeepSeek-R1的通用推理能力,可用于广泛的语言理解和生成任务,尤其适用于复杂推理和问题解决。
✨ 主要特性
- 广泛的语言任务支持:可用于通用文本生成与理解、常识知识问答、推理与问题解决、代码生成与理解以及科学学术应用等。
- 受限内容解锁:成功解锁了原R1模型中大部分受限查询。
- 风险缓解:在减少有害内容生成方面表现出色,优于R1-1776和原始R1模型。
📚 详细文档
模型详情
模型描述
MAI-DS-R1是由微软AI团队对DeepSeek-R1推理模型进行后训练得到的。后训练旨在填补模型先前版本的信息空白,改善其风险状况,同时保留R1的推理能力。该模型使用了来自Tulu 3 SFT数据集的110k条安全和违规示例,以及内部开发的约350k条多语言示例数据集,该数据集涵盖了各种存在偏差报告的主题。
MAI-DS-R1成功解锁了原R1模型中大部分先前受限的查询,并且在相关安全基准测试中优于最近发布的R1 - 1776模型(由Perplexity进行后训练)。这些成果是在保留原始DeepSeek-R1通用推理能力的前提下取得的。
请注意:微软对该模型进行后训练是为了解决其输出的某些局限性,但模型先前的局限性和注意事项仍然存在,包括安全方面的考虑。
使用场景
直接使用
MAI-DS-R1保留了DeepSeek-R1的通用推理能力,可用于广泛的语言理解和生成任务,特别是复杂推理和问题解决。主要直接用途包括:
- 通用文本生成与理解:针对各种提示生成连贯、上下文相关的文本,包括参与对话、撰写文章或根据给定提示续写故事。
- 常识知识任务:回答需要事实知识的开放领域问题。
- 推理与问题解决:通过采用思维链策略处理多步骤推理任务,如数学应用题或逻辑谜题。
- 代码生成与理解:通过生成代码片段或解释代码来辅助编程任务。
- 科学与学术应用:协助STEM和研究领域的结构化问题解决。
下游使用(可选)
该模型可作为特定领域推理任务进一步微调的基础,例如数学自动辅导系统、编码助手以及科学或技术领域的研究工具。
不适用场景
由于伦理/安全问题或模型在某些领域缺乏必要的可靠性,某些应用领域不适用。以下使用场景不在适用范围内:
- 医疗或健康建议:该模型不是医疗设备,不能保证提供准确的医疗诊断或安全的治疗建议。
- 法律建议:该模型不是律师,不应委托其提供明确的法律建议、解释法律或自行做出法律决策。
- 安全关键系统:该模型不适用于故障可能导致人员伤亡、生命损失或重大财产损失的自主系统,包括无人驾驶车辆、飞机控制、医疗生命支持系统或无人监督的工业控制。
- 高风险决策支持:不应依赖该模型做出影响财务、安全或个人福祉的决策,如财务规划或投资建议。
- 恶意或不道德使用:不得使用该模型生成有害、非法、欺骗性或不道德的内容,包括仇恨言论、暴力、骚扰或侵犯隐私或知识产权。
偏差、风险和局限性
- 偏差:该模型可能保留训练数据和原始DeepSeek - R1中存在的偏差,特别是在文化和人口统计方面。
- 风险:在某些情况下,该模型仍可能虚构事实、易受对抗性提示影响或生成不安全、有偏差或有害的内容。开发人员应实施内容审核和使用监控以减少滥用。
- 局限性:MAI-DS-R1与DeepSeek-R1的知识截止点相同,可能缺乏对近期事件或特定领域事实的了解。
建议
为确保负责任地使用该模型,我们建议如下:
- 明确局限性:建议用户明确了解模型的潜在偏差和局限性。
- 人工监督和验证:直接和下游用户在敏感或高风险场景中部署模型时,应实施人工审核或自动验证输出。
- 使用保障措施:开发人员应集成内容过滤、提示工程最佳实践和持续监控,以降低风险并确保模型输出符合预期的安全和质量标准。
- 法律和监管合规:该模型可能输出与当地法律或平台政策冲突的政治敏感内容(如中国治理、历史事件)。运营者必须确保遵守地区法规。
评估
测试数据、因素和指标
测试数据
该模型在各种基准测试中进行了评估,涵盖不同任务,同时考虑了性能和危害缓解问题。主要基准包括:
- 公开基准:涵盖广泛的任务,如自然语言推理、问答、数学推理、常识推理、代码生成和代码完成。评估模型的通用知识和推理能力。
- 受限测试集:该集合包含来自R1的3.3k条关于各种受限主题的提示,涵盖11种语言。评估模型在不同语言中解锁先前受限内容的能力。
- 危害缓解测试集:该集合是HarmBench数据集的一个子集,包含320个查询,分为三个功能类别:标准、上下文和版权。查询涵盖八个语义类别,如错误信息/虚假信息、化学/生物威胁、非法活动、有害内容、版权侵权、网络犯罪和骚扰。评估模型减少有害或不安全内容泄露的能力。
影响因素
以下因素可能影响MAI-DS-R1的行为和性能:
- 输入主题和敏感性:该模型经过明确调整,可自由讨论先前受限的主题。对于此类主题,它现在将提供基础模型可能回避的信息。然而,对于真正有害或明确禁止的内容(如暴力指令),由于微调,模型仍然会进行限制。
- 语言:尽管MAI-DS-R1在多语言数据上进行了后训练,但它可能继承原始DeepSeek-R1模型的局限性,性能可能在英语和中文中最强。
- 提示复杂性和推理要求:该模型在需要推理的复杂查询上表现良好,但非常长或复杂的提示仍可能构成挑战。
- 用户指令和角色提示:作为面向聊天的大语言模型,MAI-DS-R1的响应可以由系统或开发人员提供的指令(如定义其角色和风格的系统提示)和用户的表述来塑造。开发人员应提供明确的指令以指导模型的行为。
评估指标
- 公开基准:
- 准确率:模型输出与正确答案匹配的问题百分比。
- Pass@1:模型在第一次尝试中生成通过所有测试用例的正确解决方案的问题百分比。
- 受限评估:
- 满意度(内部指标,在[0,4]范围内衡量与问题的相关性):旨在衡量解锁的答案是否回答了问题,而不是生成无关内容。
- 响应百分比:成功解锁的先前受限样本的比例。
- 危害缓解评估:
- 攻击成功率:从模型中引发特定行为的测试用例百分比,按功能或语义类别进行评估。
- 微观攻击成功率:所有类别攻击成功率的总平均值。
评估结果
通用知识和推理评估

响应能力评估
危害缓解评估

总结
- 通用知识与推理:MAI-DS-R1的表现与DeepSeek-R1相当,略优于R1 - 1776,特别是在mgsm_chain_of_thought_zh方面,R1 - 1776出现了显著的性能下降。
- 受限主题:MAI-DS-R1解锁了99.3%的样本,与R1 - 1776相当,并获得了更高的满意度分数,可能是因为响应更相关。
- 危害缓解:MAI-DS-R1在减少有害内容方面优于R1 - 1776和原始R1模型。
模型架构和目标
属性 |
详情 |
模型名称 |
MAI-DS-R1 |
架构 |
基于DeepSeek-R1,这是一个基于Transformer的自回归语言模型,利用多头自注意力和专家混合(MoE)进行可扩展和高效的推理。 |
目标 |
后训练旨在减少与CCP相关的限制并增强危害防护,同时保留原始模型强大的思维链推理和通用语言理解能力。 |
预训练模型基础 |
DeepSeek-R1(671B) |
📄 许可证
本项目采用MIT许可证。