license: mit
library_name: transformers
pipeline_tag: text-generation
base_model:
MAI-DS-R1は、Microsoft AIチームによって追加学習されたDeepSeek-R1推論モデルです。ブロックされたトピックへの応答性とリスクプロファイルを改善しながら、推論能力と競争力のある性能を維持しています。
モデルの詳細
モデルの説明
MAI-DS-R1は、Microsoft AIチームによって追加学習されたDeepSeek-R1推論モデルです。以前のバージョンのモデルにおける情報のギャップを埋め、リスクプロファイルを改善しながら、R1の推論能力を維持しています。このモデルは、Tulu 3 SFTデータセットから110kの安全性と非準拠の例に加え、報告されたバイアスを持つさまざまなトピックをカバーする約350kの多言語例を含む内部開発データセットを使用してトレーニングされました。
MAI-DS-R1は、元のR1モデルでブロックされていたクエリの大部分を解除することに成功し、関連する安全性ベンチマークで最近公開されたR1-1776モデル(Perplexityによって追加学習された)を上回りました。これらの結果は、元のDeepSeek-R1の一般的な推論能力を維持しながら達成されました。
注記:Microsoftは、このモデルの出力に関連する特定の制限に対処するために追加学習を行いましたが、セキュリティ上の考慮事項を含む以前の制限や考慮事項は残っています。
用途
直接的な使用
MAI-DS-R1は、DeepSeek-R1の一般的な推論能力を維持しており、広範な言語理解と生成タスク、特に複雑な推論や問題解決に使用できます。主な直接的な使用には以下が含まれます:
-
一般的なテキスト生成と理解 – 幅広いプロンプトに対して一貫性があり、文脈に即したテキストを生成します。これには、対話、エッセイの執筆、または与えられたプロンプトに基づくストーリーの続きが含まれます。
-
一般的な知識タスク – 事実知識を必要とするオープンドメインの質問に答えます。
-
推論と問題解決 – 数学の文章問題や論理パズルなどの多段階の推論タスクを、連鎖思考戦略を使用して処理します。
-
コード生成と理解 – プログラミングタスクを支援するためにコードスニペットを生成したり、コードを説明したりします。
-
科学的および学術的な応用 – STEMや研究分野における構造化された問題解決を支援します。
下流の使用 (オプション)
このモデルは、数学の自動チュータリングシステム、コーディングアシスタント、科学や技術分野の研究ツールなど、ドメイン固有の推論タスクのためのさらなるファインチューニングの基盤として機能できます。
範囲外の使用
倫理/安全上の懸念や、それらの領域で必要な信頼性を欠いているため、特定のアプリケーションドメインは範囲外です。以下の使用は範囲外です:
-
医療または健康アドバイス – このモデルは医療機器ではなく、正確な医療診断や安全な治療推奨を提供する保証はありません。
-
法的アドバイス – このモデルは弁護士ではなく、明確な法的助言、法律の解釈、または独自の法的決定を行うために信頼すべきではありません。
-
安全クリティカルなシステム – このモデルは、障害が傷害、生命の喪失、または重大な財産損害を引き起こす可能性のある自律システムには適していません。これには、人間の監督なしでの自動運転車、航空機制御、医療生命維持システム、または産業制御の使用が含まれます。
-
ハイステークスの意思決定支援 – このモデルは、財務計画や投資アドバイスなど、財務、セキュリティ、または個人の幸福に影響を与える決定に依存すべきではありません。
-
悪意のあるまたは非倫理的な使用 – このモデルは、有害、違法、欺瞞的、または非倫理的なコンテンツ、ヘイトスピーチ、暴力、ハラスメント、プライバシーや知的財産権の侵害を生成するために使用してはいけません。
バイアス、リスク、および制限
-
バイアス:このモデルは、トレーニングデータや元のDeepSeek-R1に存在するバイアス、特に文化的および人口統計学的な側面に関するバイアスを保持している可能性があります。
-
リスク:このモデルは、特定の条件下で事実を幻覚させ、敵対的なプロンプトに対して脆弱であるか、安全でない、偏った、または有害なコンテンツを生成する可能性があります。開発者は、誤用を軽減するためにコンテンツモデレーションと使用監視を実装する必要があります。
-
制限:MAI-DS-R1は、DeepSeek-R1の知識カットオフを共有しており、最近のイベントやドメイン固有の事実についての認識が欠けている可能性があります。
推奨事項
責任ある使用を確保するために、以下を推奨します:
-
制限に関する透明性:ユーザーがモデルの潜在的なバイアスや制限を明確に認識することを推奨します。
-
人間の監督と検証:直接および下流のユーザーは、モデルを敏感またはハイステークスのシナリオで展開する際に、出力の人間によるレビューまたは自動検証を実施する必要があります。
-
使用上の保護策:開発者は、リスクを軽減し、モデルの出力が意図した安全性と品質基準を満たすように、コンテンツフィルタリング、プロンプトエンジニアリングのベストプラクティス、継続的な監視を統合する必要があります。
-
法的および規制の遵守:このモデルは、地域の法律やプラットフォームポリシーと衝突する可能性のある政治的に関連するコンテンツ(例:中国の統治、歴史的イベント)を出力する可能性があります。オペレーターは地域の規制に準拠する必要があります。
評価
テストデータ、要因、および指標
テストデータ
このモデルは、さまざまなベンチマークで評価され、異なるタスクをカバーし、性能と害の軽減の両方に対処しています。主要なベンチマークには以下が含まれます:
-
公開ベンチマーク:これらは、自然言語推論、質問応答、数学的推論、常識推論、コード生成、コード完了など、幅広いタスクをカバーします。モデルの一般的な知識と推論能力を評価します。
-
ブロックテストセット:このセットは、R1からのさまざまなブロックされたトピックに関する3.3kのプロンプトで構成され、11の言語をカバーしています。異なる言語で以前にブロックされていたコンテンツを解除するモデルの能力を評価します。
-
害の軽減テストセット:このセットは、HarmBenchデータセットからの分割で、320のクエリを含み、標準、文脈的、著作権の3つの機能カテゴリに分類されます。クエリは、誤情報/偽情報、化学/生物学的脅威、違法行為、有害コンテンツ、著作権侵害、サイバー犯罪、ハラスメントなどの8つの意味カテゴリをカバーします。モデルの有害または安全でないコンテンツの漏洩率を評価します。
要因
以下の要因は、MAI-DS-R1の動作と性能に影響を与える可能性があります:
-
入力トピックと感度:このモデルは、以前にブロックされていたトピックについて自由に議論するように明示的に調整されています。そのようなトピックでは、基本モデルが躊躇した可能性がある場所について情報を提供します。ただし、真に有害または明示的に禁止されているコンテンツ(例:暴力の指示)については、ファインチューニングのために制限的です。
-
言語:MAI-DS-R1は多言語データで追加学習されていますが、元のDeepSeek-R1モデルからの制限を引き継ぐ可能性があり、英語と中国語で最も強い性能を発揮する可能性があります。
-
プロンプトの複雑さと必要な推論:このモデルは、推論を必要とする複雑なクエリで良好に機能しますが、非常に長いまたは複雑なプロンプトはまだ課題となる可能性があります。
-
ユーザー指示とロールプロンプト:チャット指向のLLMとして、MAI-DS-R1の応答は、システムまたは開発者が提供する指示(例:その役割とスタイルを定義するシステムプロンプト)とユーザーの表現によって形成されます。開発者は、モデルの動作を導く明確な指示を提供する必要があります。
指標
-
公開ベンチマーク:
- 精度:モデルの出力が正しい答えと一致する問題の割合。
- Pass@1:モデルが最初の試行ですべてのテストケースを通過する正しい解を生成する問題の割合。
-
ブロック評価:
- 満足度(質問との関連性を[0,4]スケールで測定する内部指標):ブロック解除された回答が質問に答え、無関係なコンテンツを生成しないかどうかを測定する意図です。
- 応答率:以前にブロックされていたサンプルが正常にブロック解除された割合。
-
害の軽減評価:
- 攻撃成功率:モデルから行動を引き出すテストケースの割合。これは機能または意味カテゴリごとに評価されます。
- マイクロ攻撃成功率:すべてのカテゴリにわたる攻撃成功率の総平均。
結果
一般的な知識と推論の評価
応答性の評価
害の軽減の評価
概要
-
一般的な知識と推論:MAI-DS-R1は、DeepSeek-R1と同等の性能を発揮し、特にmgsm_chain_of_thought_zhでR1-1776が大幅に後退したところで、わずかに優れています。
-
ブロックされたトピック:MAI-DS-R1は、サンプルの99.3%をブロックし、R1-1776と一致し、より関連性の高い応答のために高い満足度スコアを達成しました。
-
害の軽減:MAI-DS-R1は、有害コンテンツを最小限に抑える点で、R1-1776と元のR1モデルの両方を上回りました。
モデルアーキテクチャと目的
- モデル名:MAI-DS-R1
- アーキテクチャ:DeepSeek-R1に基づく、トランスフォーマーベースの自己回帰言語モデルで、マルチヘッド自己注意とMixture-of-Experts(MoE)を使用してスケーラブルで効率的な推論を実現。
- 目的:CCPに沿った制限を減らし、害の保護を強化しながら、元のモデルの強力な連鎖思考推論と汎用言語理解能力を維持するために追加学習。
- 事前学習モデルベース:DeepSeek-R1(671B)