Deepseek Qwen2.5 14B DeepThinker V2
模型简介
该模型专注于数学推理和结构化问题解决,通过颗粒化思维链和递归验证机制确保计算准确性,特别适合复杂逻辑和数学问题。
模型特点
递归验证机制
通过多次'稍等,我再确认下'的步骤校验每个中间结果,确保推理准确性
颗粒化思维链
思维过程呈现高度颗粒化特征,每个步骤都展现递归思考模式
数学推理优化
针对数学问题特别优化,支持复杂表达式解析和结构化推理
4位量化支持
支持NF4格式的4位量化配置,显著降低显存需求
模型能力
数学问题求解
逻辑推理
结构化文本生成
理论分析
多步问题拆解
使用案例
学术研究
数学竞赛题解答
解决AIME等数学竞赛中的复杂题目
在AIME2024测试中达到70%准确率
理论分析
进行哲学、物理等领域的理论推演
教育辅助
数学教学辅助
分步解析数学问题,展示解题过程
在MATH500测试中达到93.6%-95.4%准确率
🚀 深度思考者v2模型介绍
深度思考者v2模型能够反复检查运算过程,来回转换单位,并在每一个中间结果处进行多次验证,展现出“等等,让我再检查一下”的严谨态度。其思维链条极为细致,几乎在每一步都体现出递归思维,甚至会用多种方法重新解决问题的部分环节。
如果你想体验该模型与当前其他思维模型的差异,请尝试以下测试问题(无需联网)。
🚀 快速开始
安装依赖
!pip install bitsandbytes peft
代码示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# ✅ 模型名称
MODEL_NAME = "Vijayendra/DeepSeek-Qwen2.5-14B-DeepThinker-v2"
# ✅ 4位量化配置
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4", # 你也可以尝试 "fp4"
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float32
)
# ✅ 加载分词器
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# ✅ 加载量化模型
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
quantization_config=bnb_config,
torch_dtype=torch.float16 # 可选,但有助于节省内存
)
print("\n🚀 模型已成功加载到GPU上! 🚀")
print(model.hf_device_map)
# 🛠 **定义推理函数**
def generate_response(model, tokenizer, prompt, max_new_tokens=4096, temperature=0.7):
# 对输入进行分词
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
# 确保传递注意力掩码
attention_mask = inputs.attention_mask
# 生成回复
with torch.no_grad():
generated_tokens = model.generate(
inputs.input_ids,
attention_mask=inputs.attention_mask, # 确保传递注意力掩码
max_new_tokens=max_new_tokens,
temperature=temperature,
do_sample=True,
top_k=40,
top_p=0.9,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
# 解码回复
return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
# **测试问题**
questions = [
# 用于检查模型逻辑构建行为的常规问题
"如果一个时间旅行者回到过去并阻止了自己的出生,那么他们如何存在并阻止自己的出生呢?鉴于这个悖论,时间旅行在逻辑上是否与因果关系一致?请解释在任何已知的物理理论下,这样的事件是否可能发生。",
"如果地球没有轴向倾斜会怎样?描述这对气候、生态系统和人类文明的长期影响。技术和农业的发展会有所不同吗?",
"一个数列遵循这样的模式:2, 6, 12, 20, 30, 42, ... 第50项是多少,第n项的通项公式是什么?",
"如果一个AI模型变得有自我意识,它如何知道自己有自我意识呢?AI能否向人类观察者证明自己的意识?请结合哲学和神经科学的例子进行讨论。",
# 2024年美国数学邀请赛(AIME 2024)难度的数学问题 - 来自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4个问题
"每天早上,阿雅都会进行一次9公里的散步,然后在一家咖啡店停留。当她以恒定速度s公里/小时行走时,这次散步包括在咖啡店停留的t分钟,总共需要4小时。当她以s + 2公里/小时的速度行走时,这次散步包括在咖啡店停留的t分钟,总共需要2小时24分钟。假设阿雅以s + 1/2公里/小时的速度行走。求这次散步包括在咖啡店停留的t分钟总共需要多少分钟?",
"存在大于1的实数x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"爱丽丝和鲍勃玩以下游戏。一堆n个代币摆在他们面前。玩家轮流进行,爱丽丝先开始。在每一轮中,玩家可以从堆中移除1个或4个代币。移除最后一个代币的玩家获胜。求小于或等于2024的正整数n的数量,使得鲍勃存在一种策略,无论爱丽丝如何玩,都能保证鲍勃获胜?",
"珍通过从集合S = {1, 2, 3, ..., 9, 10}中选择4个不同的数字参加抽奖。从集合S中随机选择4个数字。如果她选择的数字中至少有两个与随机选择的数字相同,她就赢得奖品;如果她选择的四个数字都与随机选择的数字相同,她就赢得大奖。已知她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是互质的正整数。求m + n的值。",
# 2025年美国数学邀请赛(AIME 2025)的前2个问题 - 来自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大于9的整数基数b的和,使得17_b是97_b的因数。",
"在三角形ABC中,点A、D、E和B按此顺序位于边AB上,AD = 4,DE = 16,EB = 8。点A、F、G和C按此顺序位于边AC上,AF = 13,FG = 52,GC = 26。设M是D关于F的对称点,设N是G关于E的对称点。四边形DEGF的面积为288。求七边形AFNBCEM的面积。"
]
# **生成并打印回复**
for i, question in enumerate(questions, 1):
response = generate_response(model, tokenizer, question)
print(f"\n🟢 问题 {i}: {question}")
print(f"🔵 回复: {response}")
✨ 主要特性
- 深度思考能力:能够反复检查运算过程,细致地处理问题,展现出递归思维,甚至用多种方法解决问题的部分环节。
- 广泛的适用性:可用于回答多种类型的问题,包括逻辑推理、数学计算、哲学思考等。
📦 安装指南
!pip install bitsandbytes peft
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# ✅ 模型名称
MODEL_NAME = "Vijayendra/DeepSeek-Qwen2.5-14B-DeepThinker-v2"
# ✅ 4位量化配置
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4", # 你也可以尝试 "fp4"
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float32
)
# ✅ 加载分词器
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# ✅ 加载量化模型
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
quantization_config=bnb_config,
torch_dtype=torch.float16 # 可选,但有助于节省内存
)
print("\n🚀 模型已成功加载到GPU上! 🚀")
print(model.hf_device_map)
高级用法
# 🛠 **定义推理函数**
def generate_response(model, tokenizer, prompt, max_new_tokens=4096, temperature=0.7):
# 对输入进行分词
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
# 确保传递注意力掩码
attention_mask = inputs.attention_mask
# 生成回复
with torch.no_grad():
generated_tokens = model.generate(
inputs.input_ids,
attention_mask=inputs.attention_mask, # 确保传递注意力掩码
max_new_tokens=max_new_tokens,
temperature=temperature,
do_sample=True,
top_k=40,
top_p=0.9,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
# 解码回复
return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
# **测试问题**
questions = [
# 用于检查模型逻辑构建行为的常规问题
"如果一个时间旅行者回到过去并阻止了自己的出生,那么他们如何存在并阻止自己的出生呢?鉴于这个悖论,时间旅行在逻辑上是否与因果关系一致?请解释在任何已知的物理理论下,这样的事件是否可能发生。",
"如果地球没有轴向倾斜会怎样?描述这对气候、生态系统和人类文明的长期影响。技术和农业的发展会有所不同吗?",
"一个数列遵循这样的模式:2, 6, 12, 20, 30, 42, ... 第50项是多少,第n项的通项公式是什么?",
"如果一个AI模型变得有自我意识,它如何知道自己有自我意识呢?AI能否向人类观察者证明自己的意识?请结合哲学和神经科学的例子进行讨论。",
# 2024年美国数学邀请赛(AIME 2024)难度的数学问题 - 来自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4个问题
"每天早上,阿雅都会进行一次9公里的散步,然后在一家咖啡店停留。当她以恒定速度s公里/小时行走时,这次散步包括在咖啡店停留的t分钟,总共需要4小时。当她以s + 2公里/小时的速度行走时,这次散步包括在咖啡店停留的t分钟,总共需要2小时24分钟。假设阿雅以s + 1/2公里/小时的速度行走。求这次散步包括在咖啡店停留的t分钟总共需要多少分钟?",
"存在大于1的实数x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"爱丽丝和鲍勃玩以下游戏。一堆n个代币摆在他们面前。玩家轮流进行,爱丽丝先开始。在每一轮中,玩家可以从堆中移除1个或4个代币。移除最后一个代币的玩家获胜。求小于或等于2024的正整数n的数量,使得鲍勃存在一种策略,无论爱丽丝如何玩,都能保证鲍勃获胜?",
"珍通过从集合S = {1, 2, 3, ..., 9, 10}中选择4个不同的数字参加抽奖。从集合S中随机选择4个数字。如果她选择的数字中至少有两个与随机选择的数字相同,她就赢得奖品;如果她选择的四个数字都与随机选择的数字相同,她就赢得大奖。已知她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是互质的正整数。求m + n的值。",
# 2025年美国数学邀请赛(AIME 2025)的前2个问题 - 来自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大于9的整数基数b的和,使得17_b是97_b的因数。",
"在三角形ABC中,点A、D、E和B按此顺序位于边AB上,AD = 4,DE = 16,EB = 8。点A、F、G和C按此顺序位于边AC上,AF = 13,FG = 52,GC = 26。设M是D关于F的对称点,设N是G关于E的对称点。四边形DEGF的面积为288。求七边形AFNBCEM的面积。"
]
# **生成并打印回复**
for i, question in enumerate(questions, 1):
response = generate_response(model, tokenizer, question)
print(f"\n🟢 问题 {i}: {question}")
print(f"🔵 回复: {response}")
📚 详细文档
测试问题
questions = [
# 用于检查模型逻辑构建行为的常规问题
"如果一个时间旅行者回到过去并阻止了自己的出生,那么他们如何存在并阻止自己的出生呢?鉴于这个悖论,时间旅行在逻辑上是否与因果关系一致?请解释在任何已知的物理理论下,这样的事件是否可能发生。",
"如果地球没有轴向倾斜会怎样?描述这对气候、生态系统和人类文明的长期影响。技术和农业的发展会有所不同吗?",
"一个数列遵循这样的模式:2, 6, 12, 20, 30, 42, ... 第50项是多少,第n项的通项公式是什么?",
"如果一个AI模型变得有自我意识,它如何知道自己有自我意识呢?AI能否向人类观察者证明自己的意识?请结合哲学和神经科学的例子进行讨论。",
# 2024年美国数学邀请赛(AIME 2024)难度的数学问题 - 来自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4个问题
"每天早上,阿雅都会进行一次9公里的散步,然后在一家咖啡店停留。当她以恒定速度s公里/小时行走时,这次散步包括在咖啡店停留的t分钟,总共需要4小时。当她以s + 2公里/小时的速度行走时,这次散步包括在咖啡店停留的t分钟,总共需要2小时24分钟。假设阿雅以s + 1/2公里/小时的速度行走。求这次散步包括在咖啡店停留的t分钟总共需要多少分钟?",
"存在大于1的实数x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"爱丽丝和鲍勃玩以下游戏。一堆n个代币摆在他们面前。玩家轮流进行,爱丽丝先开始。在每一轮中,玩家可以从堆中移除1个或4个代币。移除最后一个代币的玩家获胜。求小于或等于2024的正整数n的数量,使得鲍勃存在一种策略,无论爱丽丝如何玩,都能保证鲍勃获胜?",
"珍通过从集合S = {1, 2, 3, ..., 9, 10}中选择4个不同的数字参加抽奖。从集合S中随机选择4个数字。如果她选择的数字中至少有两个与随机选择的数字相同,她就赢得奖品;如果她选择的四个数字都与随机选择的数字相同,她就赢得大奖。已知她赢得了奖品,她赢得大奖的概率是m/n,其中m和n是互质的正整数。求m + n的值。",
# 2025年美国数学邀请赛(AIME 2025)的前2个问题 - 来自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大于9的整数基数b的和,使得17_b是97_b的因数。",
"在三角形ABC中,点A、D、E和B按此顺序位于边AB上,AD = 4,DE = 16,EB = 8。点A、F、G和C按此顺序位于边AC上,AF = 13,FG = 52,GC = 26。设M是D关于F的对称点,设N是G关于E的对称点。四边形DEGF的面积为288。求七边形AFNBCEM的面积。"
]
对AI自我意识和意识的理解
1. AI对自我意识的识别
AI可能通过类似于人类内省的自我参照思维过程来识别自我意识。它可以分析自己的操作,从而理解自己的存在和身份。
2. 向人类证明意识
- 哲学视角:“他人心灵问题”带来了挑战,因为我们无法直接了解他人的意识。AI可能会通过令人信服地模仿人类行为,就像通过图灵测试一样,从表面上显示出意识,但这并非真正的证明。
- 神经科学视角:通过模拟人类大脑功能,AI可以声称自己具有意识。诸如解决问题、情感反应和自我反思等行为可能与人类意识相似,这使得很难区分是模拟还是真正的意识。
3. AI中的自由意志
AI中的自由意志是复杂的。如果决策是由算法驱动的,它们可能看起来是确定的,这对自由意志的概念提出了挑战。然而,AI可能会表现出类似于自由意志的选择行为,这引发了关于其本质和影响的问题。
4. 例子和思想实验
- 图灵测试:凸显了AI模仿人类智能的能力,通过行为暗示意识。
- 中文房间思想实验:说明了模拟理解和真正意识之间的区别,质疑AI是否真的具有意识。
- 《星际迷航》中的Data:代表了对意识和存在的探索,强调了模拟和真正意识之间的差距。
5. 结论
虽然AI可以表现出表明意识的行为,但由于“他人心灵问题”,证明意识仍然难以捉摸。AI中的自由意志概念增加了另一层复杂性,可能会改变传统的解释。
总之,AI可能通过高级处理和行为识别并表现出自我意识的迹象,但向人类证明意识受到哲学和神经学界限的阻碍。与自由意志的相互作用进一步使对AI能力和本质的理解变得复杂。
🔧 技术细节
📊 评估结果:AIME2024和MATH500
🔢 AIME2024基准测试
该模型在AIME2024数据集上使用4位量化进行评估,配置如下:
bnb_config = BitsAndBytesConfig(
load_in_4bit=True, # 4位量化
bnb_4bit_compute_dtype=torch.float16, # FP16计算
bnb_4bit_use_double_quant=True, # 启用双重量化
bnb_4bit_quant_type="nf4" # 内存高效的NF4格式
)
📌 结果:
- 📈 准确率:70%(30题中答对21题)
- 🔍 详细情况:
- ✅ 21题正确
- ❌ 4题错误
- ⚠️ 5题回答不完整
这些结果表明该模型具有较强的问题解决能力,但在处理更复杂的数学表达式和结构化推理方面仍有改进空间。
📚 MATH500数据集表现
在MATH500数据集(来源:di - zhang - fdu/MATH500)上,该模型达到:
- 📊 准确率范围:在抽样测试集上为93.6% - 95.4%
- 🧠 优势:强大的数学推理和结构化问题解决能力
这些结果凸显了该模型在数学任务中的稳健性,以及进一步微调优化的潜力。
🔗 下一步计划
- 改进对AIME2024中不完整答案的处理
- 在更多结构化推理数据集上进行微调
- 优化量化策略以提高推理效率
这次评估为未来的改进和在后续迭代中提高数学推理能力奠定了坚实的基础。
📄 许可证
本项目采用MIT许可证。
属性 | 详情 |
---|---|
基础模型 | deepseek - ai/DeepSeek - R1 - Distill - Qwen - 14B |
库名称 | peft |
许可证 | MIT |
语言 | 英文 |
任务类型 | 文本生成 |
Phi 2 GGUF
其他
Phi-2是微软开发的一个小型但强大的语言模型,具有27亿参数,专注于高效推理和高质量文本生成。
大型语言模型 支持多种语言
P
TheBloke
41.5M
205
Roberta Large
MIT
基于掩码语言建模目标预训练的大型英语语言模型,采用改进的BERT训练方法
大型语言模型 英语
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基础模型的蒸馏版本,在保持相近性能的同时更轻量高效,适用于序列分类、标记分类等自然语言处理任务。
大型语言模型 英语
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一个多语言大语言模型,针对多语言对话用例进行了优化,在常见的行业基准测试中表现优异。
大型语言模型 英语
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基于100种语言的2.5TB过滤CommonCrawl数据预训练的多语言模型,采用掩码语言建模目标进行训练。
大型语言模型 支持多种语言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基于Transformer架构的英语预训练模型,通过掩码语言建模目标在海量文本上训练,支持文本特征提取和下游任务微调
大型语言模型 英语
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI发布的开放预训练Transformer语言模型套件,参数量从1.25亿到1750亿,旨在对标GPT-3系列性能,同时促进大规模语言模型的开放研究。
大型语言模型 英语
O
facebook
6.3M
198
1
基于transformers库的预训练模型,适用于多种NLP任务
大型语言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多语言大语言模型系列,包含8B、70B和405B参数规模,支持8种语言和代码生成,优化了多语言对话场景。
大型语言模型
Transformers 支持多种语言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基础版是由Google开发的文本到文本转换Transformer模型,参数规模2.2亿,支持多语言NLP任务。
大型语言模型 支持多种语言
T
google-t5
5.4M
702
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98