🚀 未修復的DeepSeek - v3 - 0324指令融合模型(研究版本發佈)
本項目發佈的是未經過完整訓練的實驗性模型,主要用於研究目的。這些模型通過模型融合技術創建,但需要特定的“修復”流程才能恢復正常功能。
關鍵提示
- 未訓練的融合模型:這些模型是未經過“修復”的實驗版本,直接使用會出現不可預測的行為,必須進行後訓練才能使用。
- 研究專用:僅用於研究,請勿在未了解和執行修復程序的情況下使用。
🚀 快速開始
模型介紹
本項目基於使用256個專家的DeepSeek - V3 - 0324模型,提供了四種不同壓縮級別的預覽模型:
- 8個融合專家,秩為4(約39B參數):大小縮減至1/20。
- 4個融合專家,秩為4(約29B參數):大小縮減至1/23。
儘管模型大小顯著減小,但性能表現出色,超出了參數數量預期。不過,目前仍需進行更全面的測試。
注意事項
- 融合後的模型處於初始不穩定狀態,性能會顯著下降,輸出不可預測,不能代表最終訓練好的融合模型的能力。
- 這是融合和蒸餾技術的早期迭代,蒸餾過程仍有很大的改進空間。
修復說明
- 必須進行後訓練:要使這些模型可用,必須進行後訓練。必要的腳本和詳細說明可在[moe - pruner](https://github.com/gabrielolympie/moe - pruner)倉庫中找到。
- 仔細遵循說明:請仔細按照該倉庫中的說明對剪枝後的模型進行“修復”,此過程對恢復性能至關重要。
✨ 主要特性
推理能力
- 基準測試性能顯著提升:
- MMLU - Pro:從75.9提升到81.2(+5.3)
- GPQA:從59.1提升到68.4(+9.3)
- AIME:從39.6提升到59.4(+19.8)
- LiveCodeBench:從39.2提升到49.2(+10.0)
前端網頁開發
- 代碼可執行性提高:生成的代碼更易於執行。
- 頁面和遊戲前端更美觀:生成的網頁和遊戲前端更具美感。
中文寫作能力
- 風格和內容質量提升:符合R1寫作風格,中長篇寫作質量更好。
- 功能增強:多輪交互式重寫得到改進,翻譯質量和書信寫作得到優化。
中文搜索能力
函數調用改進
- 函數調用準確性提高:修復了之前V3版本的問題,函數調用準確性增加。
💻 使用示例
系統提示
在官方DeepSeek網頁/應用中,使用帶有特定日期的系統提示。例如:
该助手为DeepSeek Chat,由深度求索公司创造。
今天是3月24日,星期一。
溫度設置
在網頁和應用環境中,溫度參數$T_{model}$設置為0.3。由於許多用戶在API調用中使用默認溫度1.0,因此實現了API溫度$T_{api}$映射機制,將輸入的API溫度值1.0調整為最適合的模型溫度設置0.3。計算公式如下:
$$
T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1)
$$
$$
T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2)
$$
因此,通過API調用V3時,溫度1.0相當於模型溫度0.3。
文件上傳和網頁搜索提示
文件上傳
請按照以下模板創建提示,其中{file_name}、{file_content}和{question}是參數。
file_template = \
"""[file name]: {file_name}
[file content begin]
{file_content}
[file content end]
{question}"""
網頁搜索
對於中文查詢,使用以下提示:
search_answer_zh_template = \
'''# 以下内容是基于用户发送的消息的搜索结果:
{search_results}
...(原文內容較長,此處省略)
{question}'''
對於英文查詢,使用以下提示:
search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
...(原文內容較長,此處省略)
{question}'''
📚 詳細文檔
本地運行
DeepSeek - V3 - 0324的模型結構與DeepSeek - V3完全相同。有關如何在本地運行此模型的更多信息,請訪問[DeepSeek - V3](https://github.com/deepseek - ai/DeepSeek - V3)倉庫。
功能支持
此模型支持函數調用、JSON輸出和FIM完成等功能。有關如何構造提示以使用這些功能的說明,請參考[DeepSeek - V2.5](https://huggingface.co/deepseek - ai/DeepSeek - V2.5#function - calling)倉庫。
注意事項
目前Hugging Face的Transformers尚未直接支持該模型。
📄 許可證
本倉庫和模型權重遵循MIT許可證。
🔗 引用
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}
📞 聯繫我們
如果您有任何問題,請提出問題或通過service@deepseek.com聯繫我們。