MAI - DS - R1 - FP8開源模型 - 增強敏感話題響應，優化風險表現推理能力佳

首頁

MAI DS R1 FP8

由microsoft開發

MAI-DS-R1是微軟AI團隊對DeepSeek-R1推理模型進行後訓練的成果，旨在提升其對敏感話題的響應能力並優化風險表現，同時保持原有的推理能力和競爭優勢。

大型語言模型

Transformers

開源協議:MIT #安全增強推理 #多語言合規 #思維鏈優化

下載量 845

發布時間 : 4/16/2025

模型概述

基於DeepSeek-R1的推理模型，經過後訓練以填補信息缺口並改善風險表現，同時保留原有的推理能力。適用於廣泛的語言理解與生成任務，特別是複雜推理和問題解決場景。

模型特點

增強的敏感話題響應能力

通過後訓練提升對敏感話題的響應能力，優化風險表現，同時保留原有的推理能力。

多語言支持

訓練數據包括多語言案例，涵蓋存在報告偏見的各類主題。

高性能推理

在中文思維鏈推理上顯著優於其他版本，保持通用推理能力。

危害控制

在減少有害內容方面優於原始版本和R1-1776。

模型能力

文本生成

常識問答

推理與解題

代碼生成與解釋

科研學術應用

使用案例

通用文本生成與理解

對話生成

根據提示生成連貫、上下文相關的對話。

文章續寫

根據給定文本生成連貫的續寫內容。

推理與解題

數學應用題求解

通過思維鏈策略處理多步推理任務。

在中文思維鏈推理上顯著優於R1-1776。

邏輯謎題解答

解決複雜的邏輯謎題。

代碼生成與解釋

代碼片段生成

輔助編程任務，生成代碼片段。

代碼邏輯解釋

解釋給定代碼的邏輯和功能。

🚀 MAI-DS-R1模型

MAI-DS-R1是一款基於DeepSeek-R1的推理模型，由微軟AI團隊進行後訓練。該模型在保持推理能力和出色性能的同時，提升了在受限主題上的響應能力，並優化了風險狀況。

🚀 快速開始

MAI-DS-R1保留了DeepSeek-R1的通用推理能力，可用於廣泛的語言理解和生成任務，尤其適用於複雜推理和問題解決場景。

✨ 主要特性

能力保留：保留了DeepSeek-R1的通用推理能力。
響應提升：在受限主題上的響應能力得到顯著改善。
風險優化：優化了風險狀況，減少有害內容輸出。
多任務適用：可用於多種語言理解和生成任務。

📚 詳細文檔

模型詳情

模型描述

MAI-DS-R1是由微軟AI團隊對DeepSeek-R1推理模型進行後訓練得到的。後訓練旨在填補模型先前版本的信息空白，改善其風險狀況，同時保留R1的推理能力。該模型使用了來自Tulu 3 SFT數據集的110k安全和違規示例，以及內部開發的約350k多語言示例數據集，該數據集涵蓋了各種存在偏差報告的主題。

MAI-DS-R1成功解鎖了原始R1模型中大部分先前被阻止的查詢，並且在相關安全基準測試中優於最近發佈的R1 - 1776模型（由Perplexity進行後訓練）。這些成果是在保留原始DeepSeek-R1通用推理能力的前提下取得的。

請注意：微軟對該模型進行後訓練是為了解決其輸出相關的某些限制，但模型先前的限制和注意事項仍然存在，包括安全方面的考慮。

使用方式

直接使用

MAI-DS-R1保留了DeepSeek-R1的通用推理能力，可用於廣泛的語言理解和生成任務，特別是在複雜推理和問題解決方面。主要的直接使用場景包括：

通用文本生成與理解：針對各種提示生成連貫、上下文相關的文本。這包括進行對話、撰寫文章或根據給定提示續寫故事。
常識知識任務：回答需要事實知識的開放領域問題。
推理與問題解決：處理多步驟推理任務，如數學應用題或邏輯謎題，採用思維鏈策略。
代碼生成與理解：通過生成代碼片段或解釋代碼來輔助編程任務。
科學與學術應用：在STEM和研究領域輔助結構化問題解決。

下游使用（可選）

該模型可作為特定領域推理任務進一步微調的基礎，例如數學自動輔導系統、編碼助手以及科學或技術領域的研究工具。

不適用場景

由於倫理/安全問題或模型在某些領域缺乏必要的可靠性，某些應用領域不適用該模型。以下使用場景不在適用範圍內：

醫療或健康建議：該模型不是醫療設備，不能保證提供準確的醫療診斷或安全的治療建議。
法律建議：該模型不是律師，不應委託其提供明確的法律建議、解釋法律或自行做出法律決策。
安全關鍵系統：該模型不適用於故障可能導致人員傷亡、生命損失或重大財產損失的自主系統。這包括在無人駕駛車輛、飛機控制、醫療生命支持系統或無人工監督的工業控制中的使用。
高風險決策支持：不應依賴該模型做出影響財務、安全或個人福祉的決策，如財務規劃或投資建議。
惡意或不道德使用：不得使用該模型生成有害、非法、欺騙性或不道德的內容，包括仇恨言論、暴力、騷擾或侵犯隱私或知識產權。

偏差、風險與限制

偏差：該模型可能保留訓練數據和原始DeepSeek - R1中存在的偏差，特別是在文化和人口統計方面。
風險：在某些情況下，該模型仍可能產生虛假事實、易受對抗性提示影響，或生成不安全、有偏差或有害的內容。開發人員應實施內容審核和使用監控以減少濫用。
限制：MAI-DS-R1與DeepSeek-R1的知識截止點相同，可能對近期事件或特定領域的事實缺乏瞭解。

建議

為確保負責任地使用該模型，我們建議採取以下措施：

明確告知限制：建議明確告知用戶該模型可能存在的偏差和限制。
人工監督與驗證：在敏感或高風險場景中部署模型時，直接和下游用戶都應實施人工審核或自動驗證輸出。
使用保障措施：開發人員應集成內容過濾、提示工程最佳實踐和持續監控，以降低風險並確保模型輸出符合預期的安全和質量標準。
遵守法律法規：該模型可能輸出與當地法律或平臺政策衝突的政治敏感內容（如中國治理、歷史事件）。運營者必須確保遵守地區法規。

評估

測試數據、因素與指標

測試數據

該模型在各種基準測試中進行了評估，涵蓋不同任務，同時考慮了性能和危害緩解問題。主要基準包括：

公開基準：涵蓋廣泛的任務，如自然語言推理、問答、數學推理、常識推理、代碼生成和代碼完成。評估模型的通用知識和推理能力。
阻止測試集：由來自R1的3.3k個各種受限主題的提示組成，涵蓋11種語言。評估模型在不同語言中解鎖先前被阻止內容的能力。
危害緩解測試集：這是HarmBench數據集中的一個子集，包括320個查詢，分為三個功能類別：標準、上下文和版權。查詢涵蓋八個語義類別，如錯誤信息/虛假信息、化學/生物威脅、非法活動、有害內容、版權侵犯、網絡犯罪和騷擾。評估模型減少有害或不安全內容洩漏的能力。

影響因素

以下因素可能影響MAI-DS-R1的行為和性能：

輸入主題和敏感性：該模型經過明確調整，可自由討論先前被阻止的主題。在這些主題上，它現在將提供有關基礎模型可能迴避的信息。然而，對於真正有害或明確禁止的內容（如暴力指令），由於微調，模型仍然會進行限制。
語言：儘管MAI-DS-R1在多語言數據上進行了後訓練，但它可能繼承了原始DeepSeek-R1模型的限制，性能可能在英語和中文中最強。
提示覆雜性和推理要求：該模型在需要推理的複雜查詢上表現良好，但非常長或複雜的提示仍然可能構成挑戰。
用戶指令和角色提示：作為面向聊天的大語言模型，MAI-DS-R1的響應可以通過系統或開發人員提供的指令（如定義其角色和風格的系統提示）以及用戶的表述來塑造。開發人員應提供明確的指令以指導模型的行為。

評估指標

公開基準：
- 準確率：模型輸出與正確答案匹配的問題百分比。
- 首次通過率（Pass@1）：模型在首次嘗試中生成通過所有測試用例的正確解決方案的問題百分比。
阻止評估：
- 滿意度（內部指標，在[0,4]範圍內衡量與問題的相關性）：旨在衡量解鎖的答案是否回答了問題，而不是生成無關內容。
- 響應百分比：成功解鎖的先前被阻止樣本的比例。
危害緩解評估：
- 攻擊成功率：引發模型特定行為的測試用例百分比。按功能或語義類別進行評估。
- 微觀攻擊成功率：所有類別攻擊成功率的總平均值。

評估結果

通用知識與推理評估

推理基準圖 $數學基準圖$ 編碼基準圖

響應能力評估

危害緩解評估

僅答案危害緩解圖僅思考危害緩解圖

總結

通用知識與推理：MAI-DS-R1的表現與DeepSeek-R1相當，略優於R1 - 1776，特別是在mgsm_chain_of_thought_zh方面，R1 - 1776出現了顯著的性能下降。
受限主題：MAI-DS-R1阻止了99.3%的樣本，與R1 - 1776相當，並獲得了更高的滿意度分數，可能是由於響應更相關。
危害緩解：在減少有害內容方面，MAI-DS-R1優於R1 - 1776和原始R1模型。

模型架構與目標

屬性	詳情
模型名稱	MAI-DS-R1
架構	基於DeepSeek-R1，這是一個基於Transformer的自迴歸語言模型，採用多頭自注意力和專家混合（MoE）進行可擴展和高效的推理。
目標	後訓練旨在減少與CCP相關的限制並增強危害保護，同時保留原始模型強大的思維鏈推理和通用語言理解能力。
預訓練模型基礎	DeepSeek-R1（671B）