D

Deepseek R1 Zero

由deepseek-ai開發
DeepSeek-R1 是 DeepSeek 推出的第一代推理模型,通過強化學習訓練而成,在數學、代碼和推理任務上表現優異。
下載量 4,034
發布時間 : 1/20/2025

模型概述

DeepSeek-R1 是基於 DeepSeek-V3-Base 訓練的大規模推理模型,通過強化學習優化推理能力,支持 128K 上下文長度。

模型特點

強化學習訓練
通過大規模強化學習直接訓練基礎模型,無需監督微調作為初步步驟。
湧現推理能力
自然湧現出自我驗證、反思和長思維鏈等強大推理行為。
高性能推理
在數學、代碼和推理任務上表現與 OpenAI-o1 相當。
蒸餾支持
支持將大模型的推理模式蒸餾到小模型中,提升小模型性能。

模型能力

複雜問題推理
數學問題求解
代碼生成與理解
長文本處理
多語言支持

使用案例

教育
數學問題解答
幫助學生解決複雜的數學問題,提供詳細的解題步驟。
在數學推理任務上表現優異
編程
代碼生成與優化
根據需求生成高質量的代碼,並能優化現有代碼。
在 LiveCodeBench 上達到 65.9 Pass@1-COT
研究
複雜問題分析
幫助研究人員分析複雜問題,提供多角度思考。
在 GPQA-Diamond 上達到 71.5 Pass@1
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase