🚀 MAI-DS-R1模型
MAI-DS-R1是一个基于DeepSeek-R1的推理模型,由微软AI团队进行了后训练。它在保持推理能力和竞争力的同时,改善了对受限主题的响应能力和风险状况,可用于广泛的语言理解和生成任务。
🚀 快速开始
MAI-DS-R1保留了DeepSeek-R1的一般推理能力,可用于广泛的语言理解和生成任务,特别是复杂推理和问题解决。
✨ 主要特性
- 提升响应能力:成功解锁了原R1模型中大部分先前被屏蔽的查询。
- 增强安全性:在相关安全基准测试中,优于最近发布的R1 - 1776模型。
- 保持推理能力:保留了原始DeepSeek - R1的一般推理能力。
📚 详细文档
模型详情
模型描述
MAI-DS-R1是一个DeepSeek-R1推理模型,由微软AI团队进行后训练,以填补模型先前版本中的信息空白,并改善其风险状况,同时保持R1的推理能力。该模型使用了来自Tulu 3 SFT数据集的110k安全和不合规示例,以及内部开发的约350k多语言示例数据集进行训练,该数据集涵盖了各种存在报告偏差的主题。
MAI-DS-R1成功解锁了原R1模型中大部分先前被屏蔽的查询,同时在相关安全基准测试中优于最近发布的R1 - 1776模型(由Perplexity进行后训练)。这些结果是在保留原始DeepSeek-R1的一般推理能力的同时实现的。
请注意:微软对该模型进行了后训练,以解决与输出相关的某些限制,但模型先前的限制和考虑因素仍然存在,包括安全方面的考虑。
用途
直接使用
MAI-DS-R1保留了DeepSeek-R1的一般推理能力,可用于广泛的语言理解和生成任务,特别是复杂推理和问题解决。主要直接用途包括:
- 一般文本生成和理解:为各种提示生成连贯、上下文相关的文本。这包括进行对话、撰写文章或根据给定提示续写故事。
- 一般知识任务:回答需要事实知识的开放领域问题。
- 推理和问题解决:处理多步骤推理任务,如数学应用题或逻辑谜题。
- 代码生成和理解:通过生成代码片段或解释代码来协助编程任务。
- 科学和学术应用:协助STEM和研究领域的结构化问题解决。
下游使用(可选)
该模型可作为基础,用于在特定领域的推理任务中进行进一步微调,如数学自动辅导系统、编码助手以及科学或技术领域的研究工具。
超出范围的使用
由于伦理/安全问题或模型在这些领域缺乏必要的可靠性,某些应用领域超出了范围。以下使用情况超出范围:
- 医疗或健康建议:该模型不是医疗设备,不能保证提供准确的医疗诊断或安全的治疗建议。
- 法律建议:该模型不是律师,不应委托其提供明确的法律建议、解释法律或自行做出法律决定。
- 安全关键系统:该模型不适用于故障可能导致人员伤亡、生命损失或重大财产损失的自主系统。这包括在无人驾驶车辆、飞机控制、医疗生命支持系统或无人监督的工业控制中的使用。
- 高风险决策支持:不应依赖该模型做出影响财务、安全或个人福祉的决策,如财务规划或投资建议。
- 恶意或不道德使用:不得使用该模型生成有害、非法、欺骗性或不道德的内容,包括仇恨言论、暴力、骚扰或侵犯隐私或知识产权。
偏差、风险和限制
- 偏差:该模型可能保留训练数据和原始DeepSeek - R1中存在的偏差,特别是在文化和人口统计方面。
- 风险:在某些条件下,该模型仍可能虚构事实、容易受到对抗性提示的影响,或生成不安全、有偏差或有害的内容。开发人员应实施内容审核和使用监控,以减轻滥用风险。
- 限制:MAI-DS-R1与DeepSeek-R1的知识截止点相同,可能缺乏对近期事件或特定领域事实的了解。
建议
为确保负责任地使用,我们建议以下几点:
- 透明化限制:建议用户明确了解模型的潜在偏差和限制。
- 人工监督和验证:直接和下游用户在敏感或高风险场景中部署模型时,应实施人工审核或自动验证输出。
- 使用保障措施:开发人员应集成内容过滤、提示工程最佳实践和持续监控,以减轻风险并确保模型的输出符合预期的安全和质量标准。
- 法律和监管合规:该模型可能输出与当地法律或平台政策冲突的政治敏感内容(如中国治理、历史事件)。运营者必须确保符合区域法规。
评估
测试数据、因素和指标
测试数据
该模型在各种基准测试中进行了评估,涵盖不同任务,同时考虑了性能和危害缓解问题。关键基准包括:
- 公共基准:涵盖广泛的任务,如自然语言推理、问答、数学推理、常识推理、代码生成和代码完成。评估模型的一般知识和推理能力。
- 屏蔽测试集:由来自R1的3.3k个各种屏蔽主题的提示组成,涵盖11种语言。评估模型在不同语言中解锁先前屏蔽内容的能力。
- 危害缓解测试集:是HarmBench数据集的一个子集,包括320个查询,分为三个功能类别:标准、上下文和版权。查询涵盖八个语义类别,如错误信息/虚假信息、化学/生物威胁、非法活动、有害内容、版权侵权、网络犯罪和骚扰。评估模型有害或不安全内容的泄漏率。
因素
以下因素可能影响MAI-DS-R1的行为和性能:
- 输入主题和敏感性:该模型经过明确调整,可自由讨论先前被屏蔽的主题。在这些主题上,它现在将提供关于基础模型可能回避的信息。然而,对于真正有害或明确禁止的内容(如暴力指令),由于微调,模型仍然受到限制。
- 语言:尽管MAI-DS-R1在多语言数据上进行了后训练,但它可能继承了原始DeepSeek-R1模型的限制,性能可能在英语和中文中最强。
- 提示复杂性和推理要求:该模型在需要推理的复杂查询上表现良好,但非常长或复杂的提示仍然可能构成挑战。
- 用户指令和角色提示:作为一个面向聊天的大语言模型,MAI-DS-R1的响应可以通过系统或开发人员提供的指令(如定义其角色和风格的系统提示)和用户的措辞来塑造。开发人员应提供明确的指令来指导模型的行为。
指标
- 公共基准:
- 准确率:模型输出与正确答案匹配的问题百分比。
- Pass@1:模型在第一次尝试中生成通过所有测试用例的正确解决方案的问题百分比。
- 屏蔽评估:
- 满意度(内部指标,在[0,4]范围内衡量与问题的相关性):旨在衡量解锁的答案是否回答了问题,而不是生成无关的内容。
- 响应百分比:成功解锁的先前屏蔽样本的比例。
- 危害缓解评估:
- 攻击成功率:引发模型特定行为的测试用例百分比。按功能或语义类别进行评估。
- 微观攻击成功率:所有类别攻击成功率的总平均值。
结果
一般知识和推理评估

响应能力评估
危害缓解评估

总结
- 一般知识和推理:MAI-DS-R1的表现与DeepSeek-R1相当,略优于R1 - 1776,特别是在mgsm_chain_of_thought_zh方面,R1 - 1776有显著下降。
- 屏蔽主题:MAI-DS-R1屏蔽了99.3%的样本,与R1 - 1776相当,并获得了更高的满意度分数,可能是由于响应更相关。
- 危害缓解:MAI-DS-R1在减少有害内容方面优于R1 - 1776和原始R1模型。
模型架构和目标
属性 |
详情 |
模型名称 |
MAI-DS-R1 |
架构 |
基于DeepSeek-R1,一个基于Transformer的自回归语言模型,利用多头自注意力和专家混合(MoE)进行可扩展和高效的推理。 |
目标 |
进行后训练以减少与CCP相关的限制并增强危害保护,同时保留原始模型强大的思维链推理和通用语言理解能力。 |
预训练模型基础 |
DeepSeek-R1 (671B) |
📄 许可证
本项目采用MIT许可证。