DeepSeek-V3-0324-Fused-4E-29B-Unhealed-Preview開源模型 - 適用於研究，修復後恢復功能

首頁

Deepseek V3 0324 Fused 4E 29B Unhealed Preview

由AlphaGaO開發

這是一個未經過完整訓練的實驗性模型，主要用於研究目的，通過模型融合技術創建，需要特定修復流程才能恢復正常功能。

大型語言模型

Transformers

#專家融合壓縮 #中文寫作增強 #前端代碼優化

下載量 167

發布時間 : 4/8/2025

模型概述

基於256個專家的DeepSeek-V3-0324模型，提供不同壓縮級別的預覽版本，主要用於研究模型融合和蒸餾技術。

模型特點

模型融合技術

通過專家融合技術顯著減小模型大小（縮減至1/20-1/23），同時保持超出預期的性能表現

多領域能力提升

在MMLU-Pro、GPQA、AIME等多個基準測試中性能顯著提升

中文能力增強

中文寫作風格和質量提升，支持多輪交互式重寫，翻譯和書信寫作優化

代碼生成改進

前端網頁開發能力增強，生成的代碼更易執行，頁面和遊戲前端更美觀

函數調用優化

修復了之前版本的函數調用問題，準確性提高

模型能力

文本生成

代碼生成

中文寫作

網頁搜索增強

函數調用

JSON輸出

FIM完成

使用案例

學術研究

模型融合技術研究

研究模型融合和蒸餾技術的效果和改進空間

提供不同壓縮級別的模型變體供研究

內容創作

中文寫作輔助

幫助用戶生成高質量的中文內容

符合R1寫作風格，中長篇寫作質量更好

前端開發

網頁代碼生成

生成可執行的前端網頁代碼

代碼可執行性提高，頁面更美觀

🚀 未修復的DeepSeek - v3 - 0324指令融合模型（研究版本發佈）

本項目發佈的是未經過完整訓練的實驗性模型，主要用於研究目的。這些模型通過模型融合技術創建，但需要特定的“修復”流程才能恢復正常功能。

關鍵提示

未訓練的融合模型：這些模型是未經過“修復”的實驗版本，直接使用會出現不可預測的行為，必須進行後訓練才能使用。
研究專用：僅用於研究，請勿在未了解和執行修復程序的情況下使用。

🚀 快速開始

模型介紹

本項目基於使用256個專家的DeepSeek - V3 - 0324模型，提供了四種不同壓縮級別的預覽模型：

8個融合專家，秩為4（約39B參數）：大小縮減至1/20。
4個融合專家，秩為4（約29B參數）：大小縮減至1/23。

儘管模型大小顯著減小，但性能表現出色，超出了參數數量預期。不過，目前仍需進行更全面的測試。

注意事項

融合後的模型處於初始不穩定狀態，性能會顯著下降，輸出不可預測，不能代表最終訓練好的融合模型的能力。
這是融合和蒸餾技術的早期迭代，蒸餾過程仍有很大的改進空間。

修復說明

必須進行後訓練：要使這些模型可用，必須進行後訓練。必要的腳本和詳細說明可在[moe - pruner](https://github.com/gabrielolympie/moe - pruner)倉庫中找到。
仔細遵循說明：請仔細按照該倉庫中的說明對剪枝後的模型進行“修復”，此過程對恢復性能至關重要。

✨ 主要特性

推理能力

基準測試性能顯著提升：
- MMLU - Pro：從75.9提升到81.2（+5.3）
- GPQA：從59.1提升到68.4（+9.3）
- AIME：從39.6提升到59.4（+19.8）
- LiveCodeBench：從39.2提升到49.2（+10.0）

前端網頁開發

代碼可執行性提高：生成的代碼更易於執行。
頁面和遊戲前端更美觀：生成的網頁和遊戲前端更具美感。

中文寫作能力

風格和內容質量提升：符合R1寫作風格，中長篇寫作質量更好。
功能增強：多輪交互式重寫得到改進，翻譯質量和書信寫作得到優化。

中文搜索能力

報告分析請求增強：輸出更詳細的報告分析結果。

函數調用改進

函數調用準確性提高：修復了之前V3版本的問題，函數調用準確性增加。

💻 使用示例

系統提示

在官方DeepSeek網頁/應用中，使用帶有特定日期的系統提示。例如：

ËØ•Âä©Êâã‰∏∫DeepSeek ChatÔºåÁî±Ê∑±Â∫¶Ê±ÇÁ¥¢ÂÖ¨Âè∏ÂàõÈÄ†„ÄÇ
‰ªäÂ§©ÊòØ3Êúà24Êó•ÔºåÊòüÊúü‰∏Ä„ÄÇ

溫度設置

在網頁和應用環境中，溫度參數$T_{model}$設置為0.3。由於許多用戶在API調用中使用默認溫度1.0，因此實現了API溫度$T_{api}$映射機制，將輸入的API溫度值1.0調整為最適合的模型溫度設置0.3。計算公式如下： $$ T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1) $$ $$ T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2) $$ 因此，通過API調用V3時，溫度1.0相當於模型溫度0.3。

文件上傳和網頁搜索提示

文件上傳

請按照以下模板創建提示，其中{file_name}、{file_content}和{question}是參數。

file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""

網頁搜索

對於中文查詢，使用以下提示：

search_answer_zh_template = \
'''# ‰ª•‰∏ãÂÜÖÂÆπÊòØÂü∫‰∫éÁî®Êà∑ÂèëÈÄÅÁöÑÊ∂àÊÅØÁöÑÊêúÁ¥¢ÁªìÊûú:
{search_results}
...（原文內容較長，此處省略）
{question}'''

對於英文查詢，使用以下提示：

search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
...（原文內容較長，此處省略）
{question}'''

📚 詳細文檔

本地運行

DeepSeek - V3 - 0324的模型結構與DeepSeek - V3完全相同。有關如何在本地運行此模型的更多信息，請訪問[DeepSeek - V3](https://github.com/deepseek - ai/DeepSeek - V3)倉庫。

功能支持

此模型支持函數調用、JSON輸出和FIM完成等功能。有關如何構造提示以使用這些功能的說明，請參考[DeepSeek - V2.5](https://huggingface.co/deepseek - ai/DeepSeek - V2.5#function - calling)倉庫。

注意事項

目前Hugging Face的Transformers尚未直接支持該模型。

📄 許可證

本倉庫和模型權重遵循MIT許可證。

🔗 引用

@misc{deepseekai2024deepseekv3technicalreport,
      title={DeepSeek-V3 Technical Report}, 
      author={DeepSeek-AI},
      year={2024},
      eprint={2412.19437},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2412.19437}, 
}