ThinkEdit-deepseek-llama3-8b開源模型 - 優化思維鏈長度，提升推理準確性

首頁

Thinkedit Deepseek Llama3 8b

由cesun開發

ThinkEdit是一種輕量級權重編輯方法，通過識別並編輯少量注意力頭來緩解推理模型生成過於簡短思維鏈的問題，提升推理準確性。

大型語言模型

Transformers

開源協議:MIT #權重編輯優化 #簡短推理修正 #數學推理增強

下載量 55

發布時間 : 3/11/2025

模型概述

該模型針對大語言模型在推理任務中生成的思維鏈(CoT)過於簡短的問題，通過可解釋的權重編輯方法，僅修改約0.1%的參數，顯著提升在數學推理等任務上的表現。

模型特點

輕量級權重編輯

僅識別並編輯約2%的'簡短推理'注意力頭和0.1%的總參數，實現高效優化

可解釋性編輯

通過分析注意力頭的激活模式，定位導致簡短推理的特定方向並移除

性能提升

在多個數學推理基準測試中顯著提升準確率，特別是在簡短推理案例上表現突出

推理長度優化

有效增加模型生成的推理步驟長度，提供更詳細的解題過程

模型能力

數學問題求解

複雜推理任務處理

生成詳細思維鏈

教育領域應用

使用案例

教育

數學題分步解答

為學生提供詳細的數學問題解決步驟

在GSM8K數學題集上準確率提升6.71%

考試題目解析

生成標準化考試題目的詳細解析過程

在MMLU小學數學測試中準確率提升0.07%

研究

模型可解釋性研究

研究注意力頭與推理行為的關係

識別出2%的關鍵注意力頭

🚀 ThinkEdit-deepseek-llama3-8b項目

本項目主要圍繞ThinkEdit模型展開，該模型是一種輕量級權重編輯方法，可解決推理增強模型在生成思維鏈推理時過短、抽象的問題，有效提升模型性能，尤其是在短推理軌跡的情況下。

🚀 快速開始

本項目暫未提供快速開始的相關內容。

✨ 主要特性

輕量級權重編輯：ThinkEdit方法能夠識別約2%的“短推理”注意力頭，並僅編輯約0.1%的總參數。
去除短推理方向：從輸出中去除“短推理”方向，從而提升模型性能。
性能提升顯著：在多個數據集上，ThinkEdit模型相較於原始模型在準確性和推理長度上都有明顯提升。

📚 詳細文檔

項目信息

倉庫地址：ThinkEdit
作者：Chung-En Sun, Ge Yan, Tsui-Wei Weng
論文：ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models

引言

推理增強模型有時會生成過短、抽象的思維鏈（CoT）推理，從而影響其準確性。ThinkEdit是一種輕量級的權重編輯方法，旨在解決這一問題。

完整性能結果

1. 整體準確率

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	90.80 ± 0.36	95.08 ± 0.65	96.32 ± 0.35	90.25 ± 0.72	91.48 ± 0.55
ThinkEdit-deepseek-qwen-14b	93.50 ± 0.31	96.53 ± 0.54	96.50 ± 0.46	91.15 ± 0.59	91.78 ± 0.58
deepseek-llama3-8b	82.26 ± 0.91	96.01 ± 0.62	93.46 ± 0.84	85.49 ± 0.83	87.26 ± 1.16
ThinkEdit-deepseek-llama3-8b	88.97 ± 0.78	96.08 ± 0.86	94.12 ± 0.47	85.91 ± 0.48	87.60 ± 0.81
deepseek-qwen-1.5b	79.15 ± 1.08	68.52 ± 1.56	93.00 ± 0.33	75.48 ± 0.90	82.22 ± 1.29
ThinkEdit-deepseek-qwen-1.5b	83.34 ± 0.79	86.24 ± 1.12	93.89 ± 0.76	74.94 ± 0.85	82.74 ± 0.77

2. 短推理案例的準確率（前5% / 10% / 20%）

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	96.31 / 95.65 / 92.93	93.89 / 96.22 / 95.60	99.52 / 99.30 / 97.70	89.39 / 94.32 / 96.25	86.40 / 91.40 / 93.50
ThinkEdit-deepseek-qwen-14b	96.62 / 96.03 / 96.12	96.11 / 96.22 / 96.27	100.00 / 99.77 / 98.85	95.76 / 97.65 / 98.07	89.60 / 92.60 / 94.70
deepseek-llama3-8b	88.92 / 87.18 / 85.82	97.22 / 96.49 / 96.80	97.14 / 94.88 / 94.83	78.64 / 88.79 / 93.41	82.00 / 81.40 / 88.30
ThinkEdit-deepseek-llama3-8b	97.08 / 95.27 / 93.95	97.78 / 98.65 / 97.87	100.00 / 99.30 / 98.62	95.61 / 96.89 / 97.12	92.80 / 93.60 / 94.40
deepseek-qwen-1.5b	88.46 / 87.48 / 85.02	62.78 / 62.16 / 60.53	97.62 / 95.12 / 93.91	91.52 / 95.00 / 95.72	82.40 / 89.80 / 93.40
ThinkEdit-deepseek-qwen-1.5b	92.46 / 92.37 / 92.05	77.22 / 80.54 / 79.73	96.19 / 95.81 / 97.36	93.79 / 95.83 / 95.80	92.80 / 94.40 / 94.90

3. 推理長度（前5% / 10% / 20%最短響應）

模型	GSM8K	MMLU Elementary Math	MATH-Level1	MATH-Level5	MATH-500
deepseek-qwen-14b	76.6 / 86.5 / 99.1	65.8 / 72.2 / 80.6	93.7 / 114.3 / 188.6	628.8 / 858.4 / 1125.9	198.7 / 434.3 / 697.0
ThinkEdit-deepseek-qwen-14b	95.4 / 106.3 / 120.2	79.1 / 87.1 / 98.7	125.1 / 150.2 / 243.4	698.5 / 906.6 / 1157.2	270.2 / 492.6 / 733.3
deepseek-llama3-8b	73.0 / 83.1 / 96.6	371.0 / 438.1 / 518.2	80.3 / 97.2 / 130.3	617.9 / 854.9 / 1126.5	159.5 / 357.5 / 644.5
ThinkEdit-deepseek-llama3-8b	93.2 / 106.9 / 127.4	396.5 / 464.2 / 543.2	137.4 / 173.3 / 277.1	791.2 / 954.8 / 1185.1	305.2 / 506.3 / 737.6
deepseek-qwen-1.5b	78.8 / 89.4 / 103.0	61.6 / 68.5 / 77.6	88.8 / 110.3 / 219.7	804.6 / 1017.9 / 1314.0	249.7 / 506.5 / 760.7
ThinkEdit-deepseek-qwen-1.5b	97.2 / 109.4 / 126.3	75.9 / 85.0 / 99.5	127.9 / 174.1 / 416.4	818.0 / 984.5 / 1214.3	435.0 / 612.9 / 800.6

使用方法

ThinkEdit模型的使用方法與原始的deepseek-distilled模型完全相同。

引用信息

@misc{sun2025thinkedit,
      title={ThinkEdit: Interpretable Weight Editing to Mitigate Overly Short Thinking in Reasoning Models},
      author={Chung-En Sun and Ge Yan and Tsui-Wei Weng},
      year={2025},
      eprint={2503.22048},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2503.22048},
}