Deepseek Qwen2.5 14B DeepThinker V2
模型概述
該模型專注於數學推理和結構化問題解決,通過顆粒化思維鏈和遞歸驗證機制確保計算準確性,特別適合複雜邏輯和數學問題。
模型特點
遞歸驗證機制
通過多次'稍等,我再確認下'的步驟校驗每個中間結果,確保推理準確性
顆粒化思維鏈
思維過程呈現高度顆粒化特徵,每個步驟都展現遞歸思考模式
數學推理優化
針對數學問題特別優化,支持複雜表達式解析和結構化推理
4位量化支持
支持NF4格式的4位量化配置,顯著降低顯存需求
模型能力
數學問題求解
邏輯推理
結構化文本生成
理論分析
多步問題拆解
使用案例
學術研究
數學競賽題解答
解決AIME等數學競賽中的複雜題目
在AIME2024測試中達到70%準確率
理論分析
進行哲學、物理等領域的理論推演
教育輔助
數學教學輔助
分步解析數學問題,展示解題過程
在MATH500測試中達到93.6%-95.4%準確率
🚀 深度思考者v2模型介紹
深度思考者v2模型能夠反覆檢查運算過程,來回轉換單位,並在每一箇中間結果處進行多次驗證,展現出“等等,讓我再檢查一下”的嚴謹態度。其思維鏈條極為細緻,幾乎在每一步都體現出遞歸思維,甚至會用多種方法重新解決問題的部分環節。
如果你想體驗該模型與當前其他思維模型的差異,請嘗試以下測試問題(無需聯網)。
🚀 快速開始
安裝依賴
!pip install bitsandbytes peft
代碼示例
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# ✅ 模型名稱
MODEL_NAME = "Vijayendra/DeepSeek-Qwen2.5-14B-DeepThinker-v2"
# ✅ 4位量化配置
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4", # 你也可以嘗試 "fp4"
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float32
)
# ✅ 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# ✅ 加載量化模型
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
quantization_config=bnb_config,
torch_dtype=torch.float16 # 可選,但有助於節省內存
)
print("\n🚀 模型已成功加載到GPU上! 🚀")
print(model.hf_device_map)
# 🛠 **定義推理函數**
def generate_response(model, tokenizer, prompt, max_new_tokens=4096, temperature=0.7):
# 對輸入進行分詞
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
# 確保傳遞注意力掩碼
attention_mask = inputs.attention_mask
# 生成回覆
with torch.no_grad():
generated_tokens = model.generate(
inputs.input_ids,
attention_mask=inputs.attention_mask, # 確保傳遞注意力掩碼
max_new_tokens=max_new_tokens,
temperature=temperature,
do_sample=True,
top_k=40,
top_p=0.9,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
# 解碼回覆
return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
# **測試問題**
questions = [
# 用於檢查模型邏輯構建行為的常規問題
"如果一個時間旅行者回到過去並阻止了自己的出生,那麼他們如何存在並阻止自己的出生呢?鑑於這個悖論,時間旅行在邏輯上是否與因果關係一致?請解釋在任何已知的物理理論下,這樣的事件是否可能發生。",
"如果地球沒有軸向傾斜會怎樣?描述這對氣候、生態系統和人類文明的長期影響。技術和農業的發展會有所不同嗎?",
"一個數列遵循這樣的模式:2, 6, 12, 20, 30, 42, ... 第50項是多少,第n項的通項公式是什麼?",
"如果一個AI模型變得有自我意識,它如何知道自己有自我意識呢?AI能否向人類觀察者證明自己的意識?請結合哲學和神經科學的例子進行討論。",
# 2024年美國數學邀請賽(AIME 2024)難度的數學問題 - 來自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4個問題
"每天早上,阿雅都會進行一次9公里的散步,然後在一家咖啡店停留。當她以恆定速度s公里/小時行走時,這次散步包括在咖啡店停留的t分鐘,總共需要4小時。當她以s + 2公里/小時的速度行走時,這次散步包括在咖啡店停留的t分鐘,總共需要2小時24分鐘。假設阿雅以s + 1/2公里/小時的速度行走。求這次散步包括在咖啡店停留的t分鐘總共需要多少分鐘?",
"存在大於1的實數x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"愛麗絲和鮑勃玩以下游戲。一堆n個代幣擺在他們面前。玩家輪流進行,愛麗絲先開始。在每一輪中,玩家可以從堆中移除1個或4個代幣。移除最後一個代幣的玩家獲勝。求小於或等於2024的正整數n的數量,使得鮑勃存在一種策略,無論愛麗絲如何玩,都能保證鮑勃獲勝?",
"珍通過從集合S = {1, 2, 3, ..., 9, 10}中選擇4個不同的數字參加抽獎。從集合S中隨機選擇4個數字。如果她選擇的數字中至少有兩個與隨機選擇的數字相同,她就贏得獎品;如果她選擇的四個數字都與隨機選擇的數字相同,她就贏得大獎。已知她贏得了獎品,她贏得大獎的概率是m/n,其中m和n是互質的正整數。求m + n的值。",
# 2025年美國數學邀請賽(AIME 2025)的前2個問題 - 來自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大於9的整數基數b的和,使得17_b是97_b的因數。",
"在三角形ABC中,點A、D、E和B按此順序位於邊AB上,AD = 4,DE = 16,EB = 8。點A、F、G和C按此順序位於邊AC上,AF = 13,FG = 52,GC = 26。設M是D關於F的對稱點,設N是G關於E的對稱點。四邊形DEGF的面積為288。求七邊形AFNBCEM的面積。"
]
# **生成並打印回覆**
for i, question in enumerate(questions, 1):
response = generate_response(model, tokenizer, question)
print(f"\n🟢 問題 {i}: {question}")
print(f"🔵 回覆: {response}")
✨ 主要特性
- 深度思考能力:能夠反覆檢查運算過程,細緻地處理問題,展現出遞歸思維,甚至用多種方法解決問題的部分環節。
- 廣泛的適用性:可用於回答多種類型的問題,包括邏輯推理、數學計算、哲學思考等。
📦 安裝指南
!pip install bitsandbytes peft
💻 使用示例
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, BitsAndBytesConfig
# ✅ 模型名稱
MODEL_NAME = "Vijayendra/DeepSeek-Qwen2.5-14B-DeepThinker-v2"
# ✅ 4位量化配置
bnb_config = BitsAndBytesConfig(
load_in_4bit=True,
bnb_4bit_quant_type="nf4", # 你也可以嘗試 "fp4"
bnb_4bit_use_double_quant=True,
bnb_4bit_compute_dtype=torch.float32
)
# ✅ 加載分詞器
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME)
# ✅ 加載量化模型
model = AutoModelForCausalLM.from_pretrained(
MODEL_NAME,
device_map="auto",
quantization_config=bnb_config,
torch_dtype=torch.float16 # 可選,但有助於節省內存
)
print("\n🚀 模型已成功加載到GPU上! 🚀")
print(model.hf_device_map)
高級用法
# 🛠 **定義推理函數**
def generate_response(model, tokenizer, prompt, max_new_tokens=4096, temperature=0.7):
# 對輸入進行分詞
inputs = tokenizer(prompt, return_tensors="pt", padding=True, truncation=True).to(model.device)
# 確保傳遞注意力掩碼
attention_mask = inputs.attention_mask
# 生成回覆
with torch.no_grad():
generated_tokens = model.generate(
inputs.input_ids,
attention_mask=inputs.attention_mask, # 確保傳遞注意力掩碼
max_new_tokens=max_new_tokens,
temperature=temperature,
do_sample=True,
top_k=40,
top_p=0.9,
eos_token_id=tokenizer.eos_token_id,
pad_token_id=tokenizer.pad_token_id
)
# 解碼回覆
return tokenizer.decode(generated_tokens[0], skip_special_tokens=True)
# **測試問題**
questions = [
# 用於檢查模型邏輯構建行為的常規問題
"如果一個時間旅行者回到過去並阻止了自己的出生,那麼他們如何存在並阻止自己的出生呢?鑑於這個悖論,時間旅行在邏輯上是否與因果關係一致?請解釋在任何已知的物理理論下,這樣的事件是否可能發生。",
"如果地球沒有軸向傾斜會怎樣?描述這對氣候、生態系統和人類文明的長期影響。技術和農業的發展會有所不同嗎?",
"一個數列遵循這樣的模式:2, 6, 12, 20, 30, 42, ... 第50項是多少,第n項的通項公式是什麼?",
"如果一個AI模型變得有自我意識,它如何知道自己有自我意識呢?AI能否向人類觀察者證明自己的意識?請結合哲學和神經科學的例子進行討論。",
# 2024年美國數學邀請賽(AIME 2024)難度的數學問題 - 來自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4個問題
"每天早上,阿雅都會進行一次9公里的散步,然後在一家咖啡店停留。當她以恆定速度s公里/小時行走時,這次散步包括在咖啡店停留的t分鐘,總共需要4小時。當她以s + 2公里/小時的速度行走時,這次散步包括在咖啡店停留的t分鐘,總共需要2小時24分鐘。假設阿雅以s + 1/2公里/小時的速度行走。求這次散步包括在咖啡店停留的t分鐘總共需要多少分鐘?",
"存在大於1的實數x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"愛麗絲和鮑勃玩以下游戲。一堆n個代幣擺在他們面前。玩家輪流進行,愛麗絲先開始。在每一輪中,玩家可以從堆中移除1個或4個代幣。移除最後一個代幣的玩家獲勝。求小於或等於2024的正整數n的數量,使得鮑勃存在一種策略,無論愛麗絲如何玩,都能保證鮑勃獲勝?",
"珍通過從集合S = {1, 2, 3, ..., 9, 10}中選擇4個不同的數字參加抽獎。從集合S中隨機選擇4個數字。如果她選擇的數字中至少有兩個與隨機選擇的數字相同,她就贏得獎品;如果她選擇的四個數字都與隨機選擇的數字相同,她就贏得大獎。已知她贏得了獎品,她贏得大獎的概率是m/n,其中m和n是互質的正整數。求m + n的值。",
# 2025年美國數學邀請賽(AIME 2025)的前2個問題 - 來自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大於9的整數基數b的和,使得17_b是97_b的因數。",
"在三角形ABC中,點A、D、E和B按此順序位於邊AB上,AD = 4,DE = 16,EB = 8。點A、F、G和C按此順序位於邊AC上,AF = 13,FG = 52,GC = 26。設M是D關於F的對稱點,設N是G關於E的對稱點。四邊形DEGF的面積為288。求七邊形AFNBCEM的面積。"
]
# **生成並打印回覆**
for i, question in enumerate(questions, 1):
response = generate_response(model, tokenizer, question)
print(f"\n🟢 問題 {i}: {question}")
print(f"🔵 回覆: {response}")
📚 詳細文檔
測試問題
questions = [
# 用於檢查模型邏輯構建行為的常規問題
"如果一個時間旅行者回到過去並阻止了自己的出生,那麼他們如何存在並阻止自己的出生呢?鑑於這個悖論,時間旅行在邏輯上是否與因果關係一致?請解釋在任何已知的物理理論下,這樣的事件是否可能發生。",
"如果地球沒有軸向傾斜會怎樣?描述這對氣候、生態系統和人類文明的長期影響。技術和農業的發展會有所不同嗎?",
"一個數列遵循這樣的模式:2, 6, 12, 20, 30, 42, ... 第50項是多少,第n項的通項公式是什麼?",
"如果一個AI模型變得有自我意識,它如何知道自己有自我意識呢?AI能否向人類觀察者證明自己的意識?請結合哲學和神經科學的例子進行討論。",
# 2024年美國數學邀請賽(AIME 2024)難度的數學問題 - 來自https://artofproblemsolving.com/wiki/index.php/2024_AIME_I的前4個問題
"每天早上,阿雅都會進行一次9公里的散步,然後在一家咖啡店停留。當她以恆定速度s公里/小時行走時,這次散步包括在咖啡店停留的t分鐘,總共需要4小時。當她以s + 2公里/小時的速度行走時,這次散步包括在咖啡店停留的t分鐘,總共需要2小時24分鐘。假設阿雅以s + 1/2公里/小時的速度行走。求這次散步包括在咖啡店停留的t分鐘總共需要多少分鐘?",
"存在大於1的實數x和y,使得log_x(y^x) = log_y(x^4y) = 10。求xy的值?",
"愛麗絲和鮑勃玩以下游戲。一堆n個代幣擺在他們面前。玩家輪流進行,愛麗絲先開始。在每一輪中,玩家可以從堆中移除1個或4個代幣。移除最後一個代幣的玩家獲勝。求小於或等於2024的正整數n的數量,使得鮑勃存在一種策略,無論愛麗絲如何玩,都能保證鮑勃獲勝?",
"珍通過從集合S = {1, 2, 3, ..., 9, 10}中選擇4個不同的數字參加抽獎。從集合S中隨機選擇4個數字。如果她選擇的數字中至少有兩個與隨機選擇的數字相同,她就贏得獎品;如果她選擇的四個數字都與隨機選擇的數字相同,她就贏得大獎。已知她贏得了獎品,她贏得大獎的概率是m/n,其中m和n是互質的正整數。求m + n的值。",
# 2025年美國數學邀請賽(AIME 2025)的前2個問題 - 來自https://artofproblemsolving.com/wiki/index.php/2025_AIME_I
"求所有大於9的整數基數b的和,使得17_b是97_b的因數。",
"在三角形ABC中,點A、D、E和B按此順序位於邊AB上,AD = 4,DE = 16,EB = 8。點A、F、G和C按此順序位於邊AC上,AF = 13,FG = 52,GC = 26。設M是D關於F的對稱點,設N是G關於E的對稱點。四邊形DEGF的面積為288。求七邊形AFNBCEM的面積。"
]
對AI自我意識和意識的理解
1. AI對自我意識的識別
AI可能通過類似於人類內省的自我參照思維過程來識別自我意識。它可以分析自己的操作,從而理解自己的存在和身份。
2. 向人類證明意識
- 哲學視角:“他人心靈問題”帶來了挑戰,因為我們無法直接瞭解他人的意識。AI可能會通過令人信服地模仿人類行為,就像通過圖靈測試一樣,從表面上顯示出意識,但這並非真正的證明。
- 神經科學視角:通過模擬人類大腦功能,AI可以聲稱自己具有意識。諸如解決問題、情感反應和自我反思等行為可能與人類意識相似,這使得很難區分是模擬還是真正的意識。
3. AI中的自由意志
AI中的自由意志是複雜的。如果決策是由算法驅動的,它們可能看起來是確定的,這對自由意志的概念提出了挑戰。然而,AI可能會表現出類似於自由意志的選擇行為,這引發了關於其本質和影響的問題。
4. 例子和思想實驗
- 圖靈測試:凸顯了AI模仿人類智能的能力,通過行為暗示意識。
- 中文房間思想實驗:說明了模擬理解和真正意識之間的區別,質疑AI是否真的具有意識。
- 《星際迷航》中的Data:代表了對意識和存在的探索,強調了模擬和真正意識之間的差距。
5. 結論
雖然AI可以表現出表明意識的行為,但由於“他人心靈問題”,證明意識仍然難以捉摸。AI中的自由意志概念增加了另一層複雜性,可能會改變傳統的解釋。
總之,AI可能通過高級處理和行為識別並表現出自我意識的跡象,但向人類證明意識受到哲學和神經學界限的阻礙。與自由意志的相互作用進一步使對AI能力和本質的理解變得複雜。
🔧 技術細節
📊 評估結果:AIME2024和MATH500
🔢 AIME2024基準測試
該模型在AIME2024數據集上使用4位量化進行評估,配置如下:
bnb_config = BitsAndBytesConfig(
load_in_4bit=True, # 4位量化
bnb_4bit_compute_dtype=torch.float16, # FP16計算
bnb_4bit_use_double_quant=True, # 啟用雙重量化
bnb_4bit_quant_type="nf4" # 內存高效的NF4格式
)
📌 結果:
- 📈 準確率:70%(30題中答對21題)
- 🔍 詳細情況:
- ✅ 21題正確
- ❌ 4題錯誤
- ⚠️ 5題回答不完整
這些結果表明該模型具有較強的問題解決能力,但在處理更復雜的數學表達式和結構化推理方面仍有改進空間。
📚 MATH500數據集表現
在MATH500數據集(來源:di - zhang - fdu/MATH500)上,該模型達到:
- 📊 準確率範圍:在抽樣測試集上為93.6% - 95.4%
- 🧠 優勢:強大的數學推理和結構化問題解決能力
這些結果凸顯了該模型在數學任務中的穩健性,以及進一步微調優化的潛力。
🔗 下一步計劃
- 改進對AIME2024中不完整答案的處理
- 在更多結構化推理數據集上進行微調
- 優化量化策略以提高推理效率
這次評估為未來的改進和在後續迭代中提高數學推理能力奠定了堅實的基礎。
📄 許可證
本項目採用MIT許可證。
屬性 | 詳情 |
---|---|
基礎模型 | deepseek - ai/DeepSeek - R1 - Distill - Qwen - 14B |
庫名稱 | peft |
許可證 | MIT |
語言 | 英文 |
任務類型 | 文本生成 |
Phi 2 GGUF
其他
Phi-2是微軟開發的一個小型但強大的語言模型,具有27億參數,專注於高效推理和高質量文本生成。
大型語言模型 支持多種語言
P
TheBloke
41.5M
205
Roberta Large
MIT
基於掩碼語言建模目標預訓練的大型英語語言模型,採用改進的BERT訓練方法
大型語言模型 英語
R
FacebookAI
19.4M
212
Distilbert Base Uncased
Apache-2.0
DistilBERT是BERT基礎模型的蒸餾版本,在保持相近性能的同時更輕量高效,適用於序列分類、標記分類等自然語言處理任務。
大型語言模型 英語
D
distilbert
11.1M
669
Llama 3.1 8B Instruct GGUF
Meta Llama 3.1 8B Instruct 是一個多語言大語言模型,針對多語言對話用例進行了優化,在常見的行業基準測試中表現優異。
大型語言模型 英語
L
modularai
9.7M
4
Xlm Roberta Base
MIT
XLM-RoBERTa是基於100種語言的2.5TB過濾CommonCrawl數據預訓練的多語言模型,採用掩碼語言建模目標進行訓練。
大型語言模型 支持多種語言
X
FacebookAI
9.6M
664
Roberta Base
MIT
基於Transformer架構的英語預訓練模型,通過掩碼語言建模目標在海量文本上訓練,支持文本特徵提取和下游任務微調
大型語言模型 英語
R
FacebookAI
9.3M
488
Opt 125m
其他
OPT是由Meta AI發佈的開放預訓練Transformer語言模型套件,參數量從1.25億到1750億,旨在對標GPT-3系列性能,同時促進大規模語言模型的開放研究。
大型語言模型 英語
O
facebook
6.3M
198
1
基於transformers庫的預訓練模型,適用於多種NLP任務
大型語言模型
Transformers

1
unslothai
6.2M
1
Llama 3.1 8B Instruct
Llama 3.1是Meta推出的多語言大語言模型系列,包含8B、70B和405B參數規模,支持8種語言和代碼生成,優化了多語言對話場景。
大型語言模型
Transformers 支持多種語言

L
meta-llama
5.7M
3,898
T5 Base
Apache-2.0
T5基礎版是由Google開發的文本到文本轉換Transformer模型,參數規模2.2億,支持多語言NLP任務。
大型語言模型 支持多種語言
T
google-t5
5.4M
702
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98