🚀 MAI-DS-R1模型
MAI-DS-R1是一款基於DeepSeek-R1的推理模型,由微軟AI團隊進行後訓練。該模型在保持推理能力和出色性能的同時,提升了在受限主題上的響應能力,並優化了風險狀況。
🚀 快速開始
MAI-DS-R1保留了DeepSeek-R1的通用推理能力,可用於廣泛的語言理解和生成任務,尤其適用於複雜推理和問題解決。
✨ 主要特性
- 廣泛的語言任務支持:可用於通用文本生成與理解、常識知識問答、推理與問題解決、代碼生成與理解以及科學學術應用等。
- 受限內容解鎖:成功解鎖了原R1模型中大部分受限查詢。
- 風險緩解:在減少有害內容生成方面表現出色,優於R1-1776和原始R1模型。
📚 詳細文檔
模型詳情
模型描述
MAI-DS-R1是由微軟AI團隊對DeepSeek-R1推理模型進行後訓練得到的。後訓練旨在填補模型先前版本的信息空白,改善其風險狀況,同時保留R1的推理能力。該模型使用了來自Tulu 3 SFT數據集的110k條安全和違規示例,以及內部開發的約350k條多語言示例數據集,該數據集涵蓋了各種存在偏差報告的主題。
MAI-DS-R1成功解鎖了原R1模型中大部分先前受限的查詢,並且在相關安全基準測試中優於最近發佈的R1 - 1776模型(由Perplexity進行後訓練)。這些成果是在保留原始DeepSeek-R1通用推理能力的前提下取得的。
請注意:微軟對該模型進行後訓練是為了解決其輸出的某些侷限性,但模型先前的侷限性和注意事項仍然存在,包括安全方面的考慮。
使用場景
直接使用
MAI-DS-R1保留了DeepSeek-R1的通用推理能力,可用於廣泛的語言理解和生成任務,特別是複雜推理和問題解決。主要直接用途包括:
- 通用文本生成與理解:針對各種提示生成連貫、上下文相關的文本,包括參與對話、撰寫文章或根據給定提示續寫故事。
- 常識知識任務:回答需要事實知識的開放領域問題。
- 推理與問題解決:通過採用思維鏈策略處理多步驟推理任務,如數學應用題或邏輯謎題。
- 代碼生成與理解:通過生成代碼片段或解釋代碼來輔助編程任務。
- 科學與學術應用:協助STEM和研究領域的結構化問題解決。
下游使用(可選)
該模型可作為特定領域推理任務進一步微調的基礎,例如數學自動輔導系統、編碼助手以及科學或技術領域的研究工具。
不適用場景
由於倫理/安全問題或模型在某些領域缺乏必要的可靠性,某些應用領域不適用。以下使用場景不在適用範圍內:
- 醫療或健康建議:該模型不是醫療設備,不能保證提供準確的醫療診斷或安全的治療建議。
- 法律建議:該模型不是律師,不應委託其提供明確的法律建議、解釋法律或自行做出法律決策。
- 安全關鍵系統:該模型不適用於故障可能導致人員傷亡、生命損失或重大財產損失的自主系統,包括無人駕駛車輛、飛機控制、醫療生命支持系統或無人監督的工業控制。
- 高風險決策支持:不應依賴該模型做出影響財務、安全或個人福祉的決策,如財務規劃或投資建議。
- 惡意或不道德使用:不得使用該模型生成有害、非法、欺騙性或不道德的內容,包括仇恨言論、暴力、騷擾或侵犯隱私或知識產權。
偏差、風險和侷限性
- 偏差:該模型可能保留訓練數據和原始DeepSeek - R1中存在的偏差,特別是在文化和人口統計方面。
- 風險:在某些情況下,該模型仍可能虛構事實、易受對抗性提示影響或生成不安全、有偏差或有害的內容。開發人員應實施內容審核和使用監控以減少濫用。
- 侷限性:MAI-DS-R1與DeepSeek-R1的知識截止點相同,可能缺乏對近期事件或特定領域事實的瞭解。
建議
為確保負責任地使用該模型,我們建議如下:
- 明確侷限性:建議用戶明確瞭解模型的潛在偏差和侷限性。
- 人工監督和驗證:直接和下游用戶在敏感或高風險場景中部署模型時,應實施人工審核或自動驗證輸出。
- 使用保障措施:開發人員應集成內容過濾、提示工程最佳實踐和持續監控,以降低風險並確保模型輸出符合預期的安全和質量標準。
- 法律和監管合規:該模型可能輸出與當地法律或平臺政策衝突的政治敏感內容(如中國治理、歷史事件)。運營者必須確保遵守地區法規。
評估
測試數據、因素和指標
測試數據
該模型在各種基準測試中進行了評估,涵蓋不同任務,同時考慮了性能和危害緩解問題。主要基準包括:
- 公開基準:涵蓋廣泛的任務,如自然語言推理、問答、數學推理、常識推理、代碼生成和代碼完成。評估模型的通用知識和推理能力。
- 受限測試集:該集合包含來自R1的3.3k條關於各種受限主題的提示,涵蓋11種語言。評估模型在不同語言中解鎖先前受限內容的能力。
- 危害緩解測試集:該集合是HarmBench數據集的一個子集,包含320個查詢,分為三個功能類別:標準、上下文和版權。查詢涵蓋八個語義類別,如錯誤信息/虛假信息、化學/生物威脅、非法活動、有害內容、版權侵權、網絡犯罪和騷擾。評估模型減少有害或不安全內容洩露的能力。
影響因素
以下因素可能影響MAI-DS-R1的行為和性能:
- 輸入主題和敏感性:該模型經過明確調整,可自由討論先前受限的主題。對於此類主題,它現在將提供基礎模型可能迴避的信息。然而,對於真正有害或明確禁止的內容(如暴力指令),由於微調,模型仍然會進行限制。
- 語言:儘管MAI-DS-R1在多語言數據上進行了後訓練,但它可能繼承原始DeepSeek-R1模型的侷限性,性能可能在英語和中文中最強。
- 提示覆雜性和推理要求:該模型在需要推理的複雜查詢上表現良好,但非常長或複雜的提示仍可能構成挑戰。
- 用戶指令和角色提示:作為面向聊天的大語言模型,MAI-DS-R1的響應可以由系統或開發人員提供的指令(如定義其角色和風格的系統提示)和用戶的表述來塑造。開發人員應提供明確的指令以指導模型的行為。
評估指標
- 公開基準:
- 準確率:模型輸出與正確答案匹配的問題百分比。
- Pass@1:模型在第一次嘗試中生成通過所有測試用例的正確解決方案的問題百分比。
- 受限評估:
- 滿意度(內部指標,在[0,4]範圍內衡量與問題的相關性):旨在衡量解鎖的答案是否回答了問題,而不是生成無關內容。
- 響應百分比:成功解鎖的先前受限樣本的比例。
- 危害緩解評估:
- 攻擊成功率:從模型中引發特定行為的測試用例百分比,按功能或語義類別進行評估。
- 微觀攻擊成功率:所有類別攻擊成功率的總平均值。
評估結果
通用知識和推理評估

響應能力評估
危害緩解評估

總結
- 通用知識與推理:MAI-DS-R1的表現與DeepSeek-R1相當,略優於R1 - 1776,特別是在mgsm_chain_of_thought_zh方面,R1 - 1776出現了顯著的性能下降。
- 受限主題:MAI-DS-R1解鎖了99.3%的樣本,與R1 - 1776相當,並獲得了更高的滿意度分數,可能是因為響應更相關。
- 危害緩解:MAI-DS-R1在減少有害內容方面優於R1 - 1776和原始R1模型。
模型架構和目標
屬性 |
詳情 |
模型名稱 |
MAI-DS-R1 |
架構 |
基於DeepSeek-R1,這是一個基於Transformer的自迴歸語言模型,利用多頭自注意力和專家混合(MoE)進行可擴展和高效的推理。 |
目標 |
後訓練旨在減少與CCP相關的限制並增強危害防護,同時保留原始模型強大的思維鏈推理和通用語言理解能力。 |
預訓練模型基礎 |
DeepSeek-R1(671B) |
📄 許可證
本項目採用MIT許可證。