ThinkEdit-deepseek-qwen-14b開源模型 - 優化推理思維鏈，提升推理準確性

首頁

Thinkedit Deepseek Qwen 14b

由cesun開發

ThinkEdit是一種輕量級權重編輯方法，通過識別並編輯少量注意力頭，緩解大語言模型在推理任務中生成過度簡短思維鏈的問題，提升推理準確性。

大型語言模型

Transformers

開源協議:其他 #推理優化 #權重編輯 #數學推理

下載量 46

發布時間 : 3/14/2025

模型概述

該模型基於deepseek-qwen-14b改進，專注於解決推理模型因生成過度簡短思維鏈而導致的準確性下降問題。通過可解釋的權重編輯技術，顯著提升在數學推理等任務中的表現。

模型特點

輕量級權重編輯

僅編輯總參數的約0.1%，通過修改少量注意力頭實現性能提升

簡短推理緩解

專門針對模型生成過度簡短思維鏈的問題進行優化

可解釋性

能識別約2%的'簡短推理'注意力頭，編輯方向明確

性能提升

在多個數學推理數據集上顯著提升準確率，特別是在簡短推理案例中

模型能力

數學問題求解

複雜推理任務處理

思維鏈生成

教育領域應用

使用案例

教育

數學問題解答

解決小學數學到高中難度的數學問題

在GSM8K數據集上準確率達93.5%

學術評估

用於MMLU小學數學評估

準確率提升至96.53%

研究

模型行為研究

研究大語言模型在推理任務中的行為模式

識別出導致簡短推理的特定注意力頭

🚀 ThinkEdit-deepseek-qwen-14b

ThinkEdit-deepseek-qwen-14b 是一個用於緩解推理模型中過度簡短思考問題的模型。該項目還發布了 ThinkEdit-deepseek-qwen-1.5b 和 ThinkEdit-deepseek-llama3-8b 的 ThinkEdit 版本。此方法通過識別和編輯少量參數，有效提升了模型在推理任務中的性能。

🚀 快速開始

本項目主要圍繞 ThinkEdit 方法展開，旨在解決推理增強模型中生成過短、抽象思維鏈推理的問題。通過編輯少量參數，去除“短推理”方向，提高模型的準確性。

✨ 主要特性

輕量級編輯：識別約 2% 的“短推理”注意力頭，僅編輯約 0.1% 的總參數。
性能提升：顯著提高模型在推理任務中的性能，特別是在短推理痕跡的情況下。

📚 詳細文檔

項目信息

作者：Chung-En Sun, Ge Yan, Tsui-Wei Weng
論文：ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models
代碼：https://github.com/Trustworthy-ML-Lab/ThinkEdit

問題背景

推理增強模型有時會因生成過短、抽象的思維鏈（CoT）推理而失敗，影響其準確性。

ThinkEdit 方法

ThinkEdit 是一種輕量級的權重編輯方法，具體步驟如下：

識別約 2% 的“短推理”注意力頭。
僅編輯約 0.1% 的總參數。
從輸出中去除“短推理”方向。
提升性能，特別是在短推理痕跡的情況下。

完整性能結果

1. 整體準確率

模型	GSM8K	MMLU 基礎數學	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	90.80 ± 0.36	95.08 ± 0.65	96.32 ± 0.35	90.25 ± 0.72	91.48 ± 0.55
ThinkEdit-deepseek-qwen-14b	93.50 ± 0.31	96.53 ± 0.54	96.50 ± 0.46	91.15 ± 0.59	91.78 ± 0.58
deepseek-llama3-8b	82.26 ± 0.91	96.01 ± 0.62	93.46 ± 0.84	85.49 ± 0.83	87.26 ± 1.16
ThinkEdit-deepseek-llama3-8b	88.97 ± 0.78	96.08 ± 0.86	94.12 ± 0.47	85.91 ± 0.48	87.60 ± 0.81
deepseek-qwen-1.5b	79.15 ± 1.08	68.52 ± 1.56	93.00 ± 0.33	75.48 ± 0.90	82.22 ± 1.29
ThinkEdit-deepseek-qwen-1.5b	83.34 ± 0.79	86.24 ± 1.12	93.89 ± 0.76	74.94 ± 0.85	82.74 ± 0.77

2. 短推理案例的準確率（前 5% / 10% / 20%）

模型	GSM8K	MMLU 基礎數學	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	96.31 / 95.65 / 92.93	93.89 / 96.22 / 95.60	99.52 / 99.30 / 97.70	89.39 / 94.32 / 96.25	86.40 / 91.40 / 93.50
ThinkEdit-deepseek-qwen-14b	96.62 / 96.03 / 96.12	96.11 / 96.22 / 96.27	100.00 / 99.77 / 98.85	95.76 / 97.65 / 98.07	89.60 / 92.60 / 94.70
deepseek-llama3-8b	88.92 / 87.18 / 85.82	97.22 / 96.49 / 96.80	97.14 / 94.88 / 94.83	78.64 / 88.79 / 93.41	82.00 / 81.40 / 88.30
ThinkEdit-deepseek-llama3-8b	97.08 / 95.27 / 93.95	97.78 / 98.65 / 97.87	100.00 / 99.30 / 98.62	95.61 / 96.89 / 97.12	92.80 / 93.60 / 94.40
deepseek-qwen-1.5b	88.46 / 87.48 / 85.02	62.78 / 62.16 / 60.53	97.62 / 95.12 / 93.91	91.52 / 95.00 / 95.72	82.40 / 89.80 / 93.40
ThinkEdit-deepseek-qwen-1.5b	92.46 / 92.37 / 92.05	77.22 / 80.54 / 79.73	96.19 / 95.81 / 97.36	93.79 / 95.83 / 95.80	92.80 / 94.40 / 94.90

3. 推理長度（最短響應的前 5% / 10% / 20%）

模型	GSM8K	MMLU 基礎數學	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	76.6 / 86.5 / 99.1	65.8 / 72.2 / 80.6	93.7 / 114.3 / 188.6	628.8 / 858.4 / 1125.9	198.7 / 434.3 / 697.0
ThinkEdit-deepseek-qwen-14b	95.4 / 106.3 / 120.2	79.1 / 87.1 / 98.7	125.1 / 150.2 / 243.4	698.5 / 906.6 / 1157.2	270.2 / 492.6 / 733.3
deepseek-llama3-8b	73.0 / 83.1 / 96.6	371.0 / 438.1 / 518.2	80.3 / 97.2 / 130.3	617.9 / 854.9 / 1126.5	159.5 / 357.5 / 644.5
ThinkEdit-deepseek-llama3-8b	93.2 / 106.9 / 127.4	396.5 / 464.2 / 543.2	137.4 / 173.3 / 277.1	791.2 / 954.8 / 1185.1	305.2 / 506.3 / 737.6
deepseek-qwen-1.5b	78.8 / 89.4 / 103.0	61.6 / 68.5 / 77.6	88.8 / 110.3 / 219.7	804.6 / 1017.9 / 1314.0	249.7 / 506.5 / 760.7
ThinkEdit-deepseek-qwen-1.5b	97.2 / 109.4 / 126.3	75.9 / 85.0 / 99.5	127.9 / 174.1 / 416.4	818.0 / 984.5 / 1214.3	435.0 / 612.9 / 800.6

使用方法

ThinkEdit 模型的使用方法與原始的 deepseek-distilled 模型完全相同。

引用

@misc{sun2025thinkedit,
      title={ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models}, 
      author={Chung-En Sun and Ge Yan and Tsui-Wei Weng},
      year={2025},
      eprint={2503.22048},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.22048}, 
}