D

Deepseek R1 Llama 8B F32 GGUF

由prithivMLmods開發
DeepSeek-R1-Llama-8B-F32-GGUF 是 DeepSeek-R1-Distill-Llama-8B 的量化版本,採用強化學習直接訓練,具備自我驗證、反思和生成擴展思維鏈等能力。
下載量 326
發布時間 : 6/1/2025

模型概述

該模型是 DeepSeek-R1-Distill-Llama-8B 的量化版本,通過強化學習直接訓練,無需監督微調,能夠探索思維鏈推理以解決複雜問題。

模型特點

強化學習直接訓練
無需監督微調作為初步步驟,直接使用強化學習進行訓練。
思維鏈推理
能夠探索思維鏈推理以解決複雜問題。
自我驗證與反思
具備自我驗證、反思和生成擴展思維鏈的能力。
多精度量化
提供 BF16、FP16 和 FP32 三種精度的量化模型。

模型能力

文本生成
思維鏈推理
自我驗證
反思

使用案例

複雜問題解決
數學推理
通過思維鏈推理解決複雜的數學問題。
邏輯推理
進行邏輯推理和驗證。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase