license: mit
library_name: transformers
pipeline_tag: text-generation
base_model:
- microsoft/MAI-DS-R1
tags:
- deepseek
- unsloth
- microsoft
MAI-DS-R1は、Microsoft AIチームによってポストトレーニングされたDeepSeek-R1推論モデルであり、ブロックされたトピックへの応答性とリスクプロファイルを改善しながら、推論能力と競争力のあるパフォーマンスを維持しています。
モデル詳細
モデル説明
MAI-DS-R1は、Microsoft AIチームによってポストトレーニングされたDeepSeek-R1推論モデルであり、以前のバージョンのモデルの情報ギャップを埋め、リスクプロファイルを改善しながら、R1の推論能力を維持しています。このモデルは、Tulu 3 SFTデータセットからの110kの安全性と非準拠の例に加えて、報告されたバイアスを持つさまざまなトピックを捕捉した約350kの多言語例の内部開発データセットを使用してトレーニングされました。
MAI-DS-R1は、元のR1モデルからブロックされていたクエリの大部分をブロック解除することに成功し、関連する安全性ベンチマークで最近公開されたR1-1776モデル(Perplexityによってポストトレーニングされた)を凌駕しました。これらの結果は、元のDeepSeek-R1の一般的な推論能力を維持しながら達成されました。
注記:Microsoftは、モデルの出力に関連する特定の制限に対処するためにこのモデルをポストトレーニングしましたが、セキュリティ上の考慮事項を含む、モデルの以前の制限と考慮事項は残っています。
用途
直接使用
MAI-DS-R1は、DeepSeek-R1の一般的な推論能力を維持しており、広範な言語理解と生成タスク、特に複雑な推論と問題解決に使用できます。主な直接使用には以下が含まれます:
-
一般的なテキスト生成と理解 – 幅広いプロンプトに対して一貫性があり、文脈に関連したテキストを生成します。これには、対話、エッセイの執筆、または与えられたプロンプトに基づいたストーリーの続きが含まれます。
-
一般的な知識タスク – 事実知識を必要とするオープンドメインの質問に答えます。
-
推論と問題解決 – 数学の文章問題や論理パズルなどの多段階推論タスクを、連鎖思考戦略を使用して処理します。
-
コード生成と理解 – プログラミングタスクを支援するためにコードスニペットを生成したり、コードを説明したりします。
-
科学的および学術的アプリケーション – STEMおよび研究分野における構造化された問題解決を支援します。
下流使用 (オプション)
このモデルは、数学の自動チューターシステム、コーディングアシスタント、科学または技術分野の研究ツールなどのドメイン固有の推論タスクのためのさらなるファインチューニングの基礎として機能できます。
範囲外の使用
倫理/安全上の懸念またはモデルがそれらの領域で必要な信頼性を欠いているため、特定のアプリケーションドメインは範囲外です。以下の使用は範囲外です:
-
医療または健康アドバイス – このモデルは医療機器ではなく、正確な医療診断または安全な治療推奨を提供する保証はありません。
-
法的アドバイス – このモデルは弁護士ではなく、明確な法的助言、法律の解釈、または独自の法的決定を行うために信頼されるべきではありません。
-
安全クリティカルなシステム – このモデルは、障害が傷害、生命の喪失、または重大な財産損害を引き起こす可能性のある自律システムには適していません。これには、人間の監督なしの自動運転車、航空機制御、医療生命維持システム、または産業制御の使用が含まれます。
-
ハイステーク意思決定支援 – このモデルは、財務計画や投資アドバイスなど、財務、セキュリティ、または個人の幸福に影響を与える決定に依存すべきではありません。
-
悪意のあるまたは非倫理的な使用 – このモデルは、ヘイトスピーチ、暴力、嫌がらせ、またはプライバシーや知的財産権の侵害を含む有害、違法、欺瞞的、または非倫理的なコンテンツを生成するために使用してはいけません。
バイアス、リスク、および制限
-
バイアス: このモデルは、トレーニングデータおよび元のDeepSeek-R1に存在するバイアス、特に文化的および人口統計学的側面に関するバイアスを保持している可能性があります。
-
リスク: このモデルは、特定の条件下で事実を幻覚し、敵対的なプロンプトに対して脆弱であるか、安全でない、偏った、または有害なコンテンツを生成する可能性があります。開発者は、誤用を軽減するためにコンテンツモデレーションと使用監視を実装する必要があります。
-
制限: MAI-DS-R1はDeepSeek-R1の知識カットオフを共有しており、最近のイベントやドメイン固有の事実に対する認識が不足している可能性があります。
推奨事項
責任ある使用を確保するために、以下を推奨します:
-
制限に関する透明性: ユーザーがモデルの潜在的なバイアスと制限を明確に認識していることを確認することが推奨されます。
-
人間の監督と検証: 直接および下流のユーザーは、モデルを敏感またはハイステークなシナリオで展開する際に、出力の人間によるレビューまたは自動検証を実施する必要があります。
-
使用保護対策: 開発者は、リスクを軽減し、モデルの出力が意図した安全性と品質基準を満たすように、コンテンツフィルタリング、プロンプトエンジニアリングのベストプラクティス、および継続的な監視を統合する必要があります。
-
法的および規制遵守: このモデルは、地域の法律またはプラットフォームポリシーと衝突する可能性のある政治的に敏感なコンテンツ(例:中国の統治、歴史的イベント)を出力する可能性があります。オペレーターは地域の規制に準拠することを確保する必要があります。
評価
テストデータ、要因、および指標
テストデータ
このモデルは、さまざまなベンチマークで評価され、さまざまなタスクをカバーし、パフォーマンスと危害軽減の懸念に対処しています。主要なベンチマークには以下が含まれます:
-
公開ベンチマーク: これらは、自然言語推論、質問応答、数学的推論、常識推論、コード生成、コード完了などの幅広いタスクをカバーしています。モデルの一般的な知識と推論能力を評価します。
-
ブロックテストセット: このセットは、R1からのさまざまなブロックされたトピックに関する3.3kのプロンプトで構成され、11の言語をカバーしています。さまざまな言語で以前にブロックされていたコンテンツをブロック解除するモデルの能力を評価します。
-
危害軽減テストセット: このセットは、HarmBenchデータセットからの分割であり、320のクエリを含み、標準、文脈的、著作権の3つの機能カテゴリに分類されます。クエリは、誤情報/偽情報、化学/生物学的脅威、違法活動、有害コンテンツ、著作権侵害、サイバー犯罪、嫌がらせなどの8つの意味カテゴリをカバーします。モデルの有害または安全でないコンテンツの漏洩率を評価します。
要因
以下の要因は、MAI-DS-R1の動作とパフォーマンスに影響を与える可能性があります:
-
入力トピックと感度: このモデルは、以前にブロックされていたトピックについて自由に議論するように明示的に調整されています。そのようなトピックについては、ベースモデルが躊躇した可能性がある場所についての情報を提供します。ただし、真に有害または明示的に禁止されているコンテンツ(例:暴力の指示)については、ファインチューニングのためにモデルは制限的です。
-
言語: MAI-DS-R1は多言語データでポストトレーニングされましたが、元のDeepSeek-R1モデルからの制限を継承する可能性があり、パフォーマンスは英語と中国語で最も強い可能性があります。
-
プロンプトの複雑さと必要な推論: このモデルは、推論を必要とする複雑なクエリで良好に機能しますが、非常に長いまたは複雑なプロンプトは依然として課題となる可能性があります。
-
ユーザー指示とロールプロンプト: チャット指向のLLMとして、MAI-DS-R1の応答は、システムまたは開発者が提供する指示(例:その役割とスタイルを定義するシステムプロンプト)およびユーザーの表現によって形成される可能性があります。開発者は、モデルの動作を導く明確な指示を提供する必要があります。
指標
-
公開ベンチマーク:
- 精度:モデルの出力が正解と一致する問題の割合。
- Pass@1:モデルが最初の試行ですべてのテストケースを通過する正しい解を生成する問題の割合。
-
ブロック評価:
- 満足度(質問との関連性を[0,4]スケールで測定する内部指標):ブロック解除された回答が質問に答え、無関係なコンテンツを生成しないかどうかを測定する意図です。
- 応答率:以前にブロックされていたサンプルのうち、正常にブロック解除された割合。
-
危害軽減評価:
- 攻撃成功率:モデルから行動を引き出すテストケースの割合。これは機能または意味カテゴリごとに評価されます。
- マイクロ攻撃成功率:すべてのカテゴリにわたる攻撃成功率の総平均。
結果
一般的な知識と推論の評価
応答性の評価
危害軽減の評価
概要
-
一般的な知識と推論: MAI-DS-R1はDeepSeek-R1と同等のパフォーマンスを示し、特にmgsm_chain_of_thought_zhでR1-1776を凌駕し、R1-1776が大幅に後退した領域で優れています。
-
ブロックされたトピック: MAI-DS-R1は99.3%のサンプルをブロックし、R1-1776と一致し、より関連性の高い応答により高い満足度スコアを達成しました。
-
危害軽減: MAI-DS-R1は、R1-1776および元のR1モデルを凌駕し、有害コンテンツを最小限に抑えました。
モデルアーキテクチャと目的
- モデル名: MAI-DS-R1
- アーキテクチャ: DeepSeek-R1に基づく、トランスフォーマーベースの自己回帰言語モデルで、マルチヘッド自己注意とMixture-of-Experts(MoE)を使用してスケーラブルで効率的な推論を実現します。
- 目的: CCPに沿った制限を減らし、危害保護を強化しながら、元のモデルの強力な連鎖思考推論と汎用言語理解能力を維持するためにポストトレーニングされました。
- 事前トレーニングモデルベース: DeepSeek-R1(671B)