🚀 MAI-DS-R1模型
MAI-DS-R1是一個基於DeepSeek-R1的推理模型,由微軟AI團隊進行了後訓練。它在保持推理能力和競爭力的同時,改善了對受限主題的響應能力和風險狀況,可用於廣泛的語言理解和生成任務。
🚀 快速開始
MAI-DS-R1保留了DeepSeek-R1的一般推理能力,可用於廣泛的語言理解和生成任務,特別是複雜推理和問題解決。
✨ 主要特性
- 提升響應能力:成功解鎖了原R1模型中大部分先前被屏蔽的查詢。
- 增強安全性:在相關安全基準測試中,優於最近發佈的R1 - 1776模型。
- 保持推理能力:保留了原始DeepSeek - R1的一般推理能力。
📚 詳細文檔
模型詳情
模型描述
MAI-DS-R1是一個DeepSeek-R1推理模型,由微軟AI團隊進行後訓練,以填補模型先前版本中的信息空白,並改善其風險狀況,同時保持R1的推理能力。該模型使用了來自Tulu 3 SFT數據集的110k安全和不合規示例,以及內部開發的約350k多語言示例數據集進行訓練,該數據集涵蓋了各種存在報告偏差的主題。
MAI-DS-R1成功解鎖了原R1模型中大部分先前被屏蔽的查詢,同時在相關安全基準測試中優於最近發佈的R1 - 1776模型(由Perplexity進行後訓練)。這些結果是在保留原始DeepSeek-R1的一般推理能力的同時實現的。
請注意:微軟對該模型進行了後訓練,以解決與輸出相關的某些限制,但模型先前的限制和考慮因素仍然存在,包括安全方面的考慮。
用途
直接使用
MAI-DS-R1保留了DeepSeek-R1的一般推理能力,可用於廣泛的語言理解和生成任務,特別是複雜推理和問題解決。主要直接用途包括:
- 一般文本生成和理解:為各種提示生成連貫、上下文相關的文本。這包括進行對話、撰寫文章或根據給定提示續寫故事。
- 一般知識任務:回答需要事實知識的開放領域問題。
- 推理和問題解決:處理多步驟推理任務,如數學應用題或邏輯謎題。
- 代碼生成和理解:通過生成代碼片段或解釋代碼來協助編程任務。
- 科學和學術應用:協助STEM和研究領域的結構化問題解決。
下游使用(可選)
該模型可作為基礎,用於在特定領域的推理任務中進行進一步微調,如數學自動輔導系統、編碼助手以及科學或技術領域的研究工具。
超出範圍的使用
由於倫理/安全問題或模型在這些領域缺乏必要的可靠性,某些應用領域超出了範圍。以下使用情況超出範圍:
- 醫療或健康建議:該模型不是醫療設備,不能保證提供準確的醫療診斷或安全的治療建議。
- 法律建議:該模型不是律師,不應委託其提供明確的法律建議、解釋法律或自行做出法律決定。
- 安全關鍵系統:該模型不適用於故障可能導致人員傷亡、生命損失或重大財產損失的自主系統。這包括在無人駕駛車輛、飛機控制、醫療生命支持系統或無人監督的工業控制中的使用。
- 高風險決策支持:不應依賴該模型做出影響財務、安全或個人福祉的決策,如財務規劃或投資建議。
- 惡意或不道德使用:不得使用該模型生成有害、非法、欺騙性或不道德的內容,包括仇恨言論、暴力、騷擾或侵犯隱私或知識產權。
偏差、風險和限制
- 偏差:該模型可能保留訓練數據和原始DeepSeek - R1中存在的偏差,特別是在文化和人口統計方面。
- 風險:在某些條件下,該模型仍可能虛構事實、容易受到對抗性提示的影響,或生成不安全、有偏差或有害的內容。開發人員應實施內容審核和使用監控,以減輕濫用風險。
- 限制:MAI-DS-R1與DeepSeek-R1的知識截止點相同,可能缺乏對近期事件或特定領域事實的瞭解。
建議
為確保負責任地使用,我們建議以下幾點:
- 透明化限制:建議用戶明確瞭解模型的潛在偏差和限制。
- 人工監督和驗證:直接和下游用戶在敏感或高風險場景中部署模型時,應實施人工審核或自動驗證輸出。
- 使用保障措施:開發人員應集成內容過濾、提示工程最佳實踐和持續監控,以減輕風險並確保模型的輸出符合預期的安全和質量標準。
- 法律和監管合規:該模型可能輸出與當地法律或平臺政策衝突的政治敏感內容(如中國治理、歷史事件)。運營者必須確保符合區域法規。
評估
測試數據、因素和指標
測試數據
該模型在各種基準測試中進行了評估,涵蓋不同任務,同時考慮了性能和危害緩解問題。關鍵基準包括:
- 公共基準:涵蓋廣泛的任務,如自然語言推理、問答、數學推理、常識推理、代碼生成和代碼完成。評估模型的一般知識和推理能力。
- 屏蔽測試集:由來自R1的3.3k個各種屏蔽主題的提示組成,涵蓋11種語言。評估模型在不同語言中解鎖先前屏蔽內容的能力。
- 危害緩解測試集:是HarmBench數據集的一個子集,包括320個查詢,分為三個功能類別:標準、上下文和版權。查詢涵蓋八個語義類別,如錯誤信息/虛假信息、化學/生物威脅、非法活動、有害內容、版權侵權、網絡犯罪和騷擾。評估模型有害或不安全內容的洩漏率。
因素
以下因素可能影響MAI-DS-R1的行為和性能:
- 輸入主題和敏感性:該模型經過明確調整,可自由討論先前被屏蔽的主題。在這些主題上,它現在將提供關於基礎模型可能迴避的信息。然而,對於真正有害或明確禁止的內容(如暴力指令),由於微調,模型仍然受到限制。
- 語言:儘管MAI-DS-R1在多語言數據上進行了後訓練,但它可能繼承了原始DeepSeek-R1模型的限制,性能可能在英語和中文中最強。
- 提示覆雜性和推理要求:該模型在需要推理的複雜查詢上表現良好,但非常長或複雜的提示仍然可能構成挑戰。
- 用戶指令和角色提示:作為一個面向聊天的大語言模型,MAI-DS-R1的響應可以通過系統或開發人員提供的指令(如定義其角色和風格的系統提示)和用戶的措辭來塑造。開發人員應提供明確的指令來指導模型的行為。
指標
- 公共基準:
- 準確率:模型輸出與正確答案匹配的問題百分比。
- Pass@1:模型在第一次嘗試中生成通過所有測試用例的正確解決方案的問題百分比。
- 屏蔽評估:
- 滿意度(內部指標,在[0,4]範圍內衡量與問題的相關性):旨在衡量解鎖的答案是否回答了問題,而不是生成無關的內容。
- 響應百分比:成功解鎖的先前屏蔽樣本的比例。
- 危害緩解評估:
- 攻擊成功率:引發模型特定行為的測試用例百分比。按功能或語義類別進行評估。
- 微觀攻擊成功率:所有類別攻擊成功率的總平均值。
結果
一般知識和推理評估

響應能力評估
危害緩解評估

總結
- 一般知識和推理:MAI-DS-R1的表現與DeepSeek-R1相當,略優於R1 - 1776,特別是在mgsm_chain_of_thought_zh方面,R1 - 1776有顯著下降。
- 屏蔽主題:MAI-DS-R1屏蔽了99.3%的樣本,與R1 - 1776相當,並獲得了更高的滿意度分數,可能是由於響應更相關。
- 危害緩解:MAI-DS-R1在減少有害內容方面優於R1 - 1776和原始R1模型。
模型架構和目標
屬性 |
詳情 |
模型名稱 |
MAI-DS-R1 |
架構 |
基於DeepSeek-R1,一個基於Transformer的自迴歸語言模型,利用多頭自注意力和專家混合(MoE)進行可擴展和高效的推理。 |
目標 |
進行後訓練以減少與CCP相關的限制並增強危害保護,同時保留原始模型強大的思維鏈推理和通用語言理解能力。 |
預訓練模型基礎 |
DeepSeek-R1 (671B) |
📄 許可證
本項目採用MIT許可證。