T

Thinkedit Deepseek Qwen 14b

Developed by cesun
ThinkEditは軽量な重み編集手法で、少数のアテンションヘッドを特定・編集することで、大規模言語モデルが推論タスクで過度に短い思考連鎖を生成する問題を緩和し、推論精度を向上させます。
Downloads 46
Release Time : 3/14/2025

Model Overview

このモデルはdeepseek-qwen-14bを改良したもので、推論モデルが過度に短い思考連鎖を生成することで生じる精度低下問題の解決に焦点を当てています。解釈可能な重み編集技術により、数学的推論などのタスクでのパフォーマンスを大幅に向上させます。

Model Features

軽量重み編集
全パラメータの約0.1%のみを編集し、少数のアテンションヘッドを変更することで性能向上を実現
短縮推論緩和
モデルが生成する過度に短い思考連鎖の問題に特化して最適化
解釈可能性
約2%の'短縮推論'アテンションヘッドを特定可能で、編集方向が明確
性能向上
複数の数学的推論データセットで精度が大幅に向上、特に短縮推論ケースで顕著

Model Capabilities

数学問題解決
複雑な推論タスク処理
思考連鎖生成
教育分野への応用

Use Cases

教育
数学問題解答
小学校から高校レベルの数学問題を解決
GSM8Kデータセットで93.5%の精度
学術評価
MMLU小学校数学評価に使用
精度96.53%に向上
研究
モデル行動研究
大規模言語モデルの推論タスクにおける行動パターンを研究
短縮推論を引き起こす特定のアテンションヘッドを特定
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase