D

Deepseek R1

由deepseek-ai開發
DeepSeek-R1是深度求索推出的第一代推理模型,通過大規模強化學習訓練,在數學、代碼和推理任務上表現優異。
下載量 1.7M
發布時間 : 1/20/2025

模型概述

DeepSeek-R1是一個基於MoE架構的大規模語言模型,通過兩階段強化學習和監督微調訓練而成,專注於提升複雜推理能力。

模型特點

純強化學習訓練
DeepSeek-R1-Zero版本完全通過強化學習訓練,無需監督微調,展現了自然湧現的推理能力
兩階段訓練流程
包含兩個RL階段用於發現推理模式和對齊人類偏好,以及兩個SFT階段作為能力種子
強大推理能力
在數學、代碼和複雜推理任務上表現優異,與OpenAI-o1相當
知識蒸餾支持
支持將大模型的推理能力蒸餾到小模型,提升小模型性能

模型能力

複雜數學問題求解
代碼生成與理解
長文本推理
多步邏輯推理
自我驗證與反思
思維鏈生成

使用案例

教育
數學問題解答
解決複雜數學問題,包括證明題和計算題
在數學基準測試中表現優異
編程
代碼生成
根據問題描述生成功能代碼
在LiveCodeBench上達到65.9%的Pass@1-COT
研究
科學推理
處理複雜科學問題和推理任務
在GPQA-Diamond測試中達到71.5%準確率
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase