モデル概要
モデル特徴
モデル能力
使用事例
base_model: deepseek-ai/DeepSeek-V3-0324 language:
- en library_name: transformers license: mit tags:
- deepseek_v3
- deepseek
- unsloth
- transformers
DeepSeek-V3-0324をローカルで実行する詳細な手順についてはこちらのガイドをお読みください。
UnslothのDynamic Quantsは選択的に量子化されており、標準的なビット数よりも大幅に精度が向上しています。
DeepSeek-V3-0324 Dynamic GGUF
当社のDeepSeek-V3-0324 GGUFを使用すると、llama.cpp、LMStudio、Open WebUIなどの推論フレームワークでモデルを実行できます。
1-4ビットのDynamicバージョンを含み、標準的な量子化よりも優れた精度と結果を提供します。
MoEビット数 | タイプ | ディスクサイズ | 精度 | リンク | 詳細 |
---|---|---|---|---|---|
1.78bit (暫定) | IQ1_S | 186GB | 可 | リンク | MoEのdown_proj が2.06/1.78bitの混合 |
1.93bit (暫定) | IQ1_M | 196GB | やや可 | リンク | MoEのdown_proj が2.06/1.93bitの混合 |
2.42bit | IQ2_XXS | 219GB | 推奨 | リンク | MoEのdown_proj が全て2.42bit |
2.71bit | Q2_K_XL | 248GB | 推奨 | リンク | MoEのdown_proj が3.5/2.71bitの混合 |
3.5bit | Q3_K_XL | 321GB | 良好 | リンク | MoEのdown_proj が4.5/3.5bitの混合 |
4.5bit | Q4_K_XL | 405GB | 最良 | リンク | MoEのdown_proj が5.5/4.5bitの混合 |
暫定 = 予備的なもの - テストでは一般的に問題ありませんが、時々最適なコードを生成しないため、さらなる作業/テストが必要です。 2.71bitは性能/サイズの面で最良であり、優れたコードを生成することがわかりました。2.42bitもすべてのテストを通過しました。
したがって、最良の結果を得るには、2.42ビット(IQ2_XXS)または2.71ビット(Q2_K_XL)バージョンを使用してください。必須ではありませんが、少なくとも180GB以上のVRAM + RAMの合計を確保するようにしてください。
DeepSeekチームに、DeepSeek V3モデルの3月アップデートをリリースしていただき感謝します。また、bartowskiに初期のV3量子化を提供していただき感謝します。
UnslothでR1のような推論モデルをファインチューニングしましょう!
Llama 3.1(8B)を推論モデルに変換するための無料のGoogle Colabノートブックがあります:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb
✨ 無料でファインチューニング
すべてのノートブックは初心者向けです!データセットを追加し、「Run All」をクリックするだけで、2倍高速なファインチューニングされたモデルが得られ、GGUF、vLLMにエクスポートしたり、Hugging Faceにアップロードしたりできます。
Unslothがサポートするモデル | 無料ノートブック | パフォーマンス | メモリ使用量 |
---|---|---|---|
GRPO with Phi-4 (14B) | ▶️ Colabで開始 | 2倍高速 | 80%削減 |
Llama-3.2 (3B) | ▶️ Colabで開始 | 2.4倍高速 | 58%削減 |
Llama-3.2 (11B vision) | ▶️ Colabで開始 | 2倍高速 | 60%削減 |
Qwen2 VL (7B) | ▶️ Colabで開始 | 1.8倍高速 | 60%削減 |
Qwen2.5 (7B) | ▶️ Colabで開始 | 2倍高速 | 60%削減 |
Llama-3.1 (8B) | ▶️ Colabで開始 | 2.4倍高速 | 58%削減 |
Phi-3.5 (mini) | ▶️ Colabで開始 | 2倍高速 | 50%削減 |
Gemma 2 (9B) | ▶️ Colabで開始 | 2.4倍高速 | 58%削減 |
Mistral (7B) | ▶️ Colabで開始 | 2.2倍高速 | 62%削減 |
特徴
DeepSeek-V3-0324は、前身のDeepSeek-V3と比較して、いくつかの重要な側面で顕著な改善を示しています。
推論能力
- ベンチマークパフォーマンスの大幅な改善:
- MMLU-Pro: 75.9 → 81.2 (+5.3)
- GPQA: 59.1 → 68.4 (+9.3)
- AIME: 39.6 → 59.4 (+19.8)
- LiveCodeBench: 39.2 → 49.2 (+10.0)
フロントエンドWeb開発
- コードの実行可能性が向上
- より美しいWebページとゲームのフロントエンド
中国語の文章力
-
スタイルと内容の質が向上:
- R1の文章スタイルに準拠
- 中長編の文章の質が向上
-
機能強化
- マルチターンインタラクティブな書き換えが改善
- 翻訳品質と手紙の執筆が最適化
中国語検索能力
- レポート分析リクエストが強化され、より詳細な出力が可能に
関数呼び出しの改善
- 関数呼び出しの精度が向上し、以前のV3バージョンの問題が修正
使用推奨事項
システムプロンプト
公式のDeepSeek Web/アプリでは、特定の日付と同じシステムプロンプトを使用しています。
このアシスタントはDeepSeek Chatで、深度求索会社によって作成されました。
今日は{current date}です。
例えば、
このアシスタントはDeepSeek Chatで、深度求索会社によって作成されました。
今日は3月24日、月曜日です。
温度
Webおよびアプリケーション環境では、温度パラメータ$T_{model}$は0.3に設定されています。多くのユーザーがAPI呼び出しでデフォルトの温度1.0を使用するため、API温度$T_{api}$マッピングメカニズムを実装し、入力API温度値1.0を最も適したモデル温度設定0.3に調整します。
$$ T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1) $$
$$ T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2) $$
したがって、API経由でV3を呼び出す場合、温度1.0はモデル温度0.3に相当します。
ファイルアップロードとWeb検索のプロンプト
ファイルアップロードの場合、{file_name}、{file_content}、{question}を引数としてプロンプトを作成するテンプレートに従ってください。
file_template = \
"""[ファイル名]: {file_name}
[ファイル内容開始]
{file_content}
[ファイル内容終了]
{question}"""
Web検索の場合、{search_results}、{cur_date}、{question}が引数です。
中国語クエリの場合、次のプロンプトを使用します:
search_answer_zh_template = \
'''# 以下はユーザーが送信したメッセージに関連する検索結果です:
{search_results}
私が提供する検索結果では、各結果は[webpage X begin]...[webpage X end]形式で、Xは各記事の数字インデックスを表します。適切な場合、文末にコンテキストを引用してください。回答の対応する部分に引用番号[citation:X]の形式で引用してください。1つの文が複数のコンテキストに由来する場合は、[citation:3][citation:5]のようにすべての関連する引用番号をリストしてください。最後に引用番号をまとめて返さず、回答の対応する部分にリストしてください。
回答する際は、以下の点に注意してください:
- 今日は{cur_date}です。
- 検索結果のすべての内容がユーザーの質問と密接に関連しているわけではありません。質問に基づいて検索結果を評価し、フィルタリングする必要があります。
- リスト型の質問(例:すべてのフライト情報をリストする)の場合、回答を10ポイント以内に制限し、ユーザーに検索ソースを参照して完全な情報を取得できるように伝えてください。情報が完全で最も関連性の高いリスト項目を優先的に提供してください。必要がない限り、検索結果に提供されていない内容を積極的に伝えないでください。
- 創作型の質問(例:論文を書く)の場合、本文の段落内で[citation:3][citation:5]のように対応する参照番号を引用してください。記事の末尾だけで引用しないでください。ユーザーの題目要求を解釈し、要約し、適切な形式を選択し、検索結果を十分に活用し、重要な情報を抽出し、ユーザーの要求に合致し、思想的に深く、創造力と専門性に富んだ回答を生成してください。回答の長さをできるだけ延ばし、各ポイントについてユーザーの意図を推測し、できるだけ多角的な回答ポイントを提供し、情報量が多く、詳細に論述してください。
- 回答が長い場合は、構造化し、段落ごとにまとめてください。ポイントごとに回答する必要がある場合は、関連する内容を統合し、5ポイント以内に制限してください。
- 客観的なQ&Aの場合、回答が非常に短い場合は、内容を豊かにするために1、2の関連文を追加してください。
- ユーザーの要求と回答内容に基づいて適切で美しい回答形式を選択し、可読性を確保してください。
- 回答は複数の関連するWebページを統合して回答し、同じWebページを繰り返し引用しないでください。
- ユーザーが要求しない限り、回答の言語はユーザーの質問の言語と一致させる必要があります。
# ユーザーのメッセージは:
{question}'''
英語クエリの場合、次のプロンプトを使用します:
search_answer_en_template = \
'''# The following contents are the search results related to the user's message:
{search_results}
In the search results I provide to you, each result is formatted as [webpage X begin]...[webpage X end], where X represents the numerical index of each article. Please cite the context at the end of the relevant sentence when appropriate. Use the citation format [citation:X] in the corresponding part of your answer. If a sentence is derived from multiple contexts, list all relevant citation numbers, such as [citation:3][citation:5]. Be sure not to cluster all citations at the end; instead, include them in the corresponding parts of the answer.
When responding, please keep the following points in mind:
- Today is {cur_date}.
- Not all content in the search results is closely related to the user's question. You need to evaluate and filter the search results based on the question.
- For listing-type questions (e.g., listing all flight information), try to limit the answer to 10 key points and inform the user that they can refer to the search sources for complete information. Prioritize providing the most complete and relevant items in the list. Avoid mentioning content not provided in the search results unless necessary.
- For creative tasks (e.g., writing an essay), ensure that references are cited within the body of the text, such as [citation:3][citation:5], rather than only at the end of the text. You need to interpret and summarize the user's requirements, choose an appropriate format, fully utilize the search results, extract key information, and generate an answer that is insightful, creative, and professional. Extend the length of your response as much as possible, addressing each point in detail and from multiple perspectives, ensuring the content is rich and thorough.
- If the response is lengthy, structure it well and summarize it in paragraphs. If a point-by-point format is needed, try to limit it to 5 points and merge related content.
- For objective Q&A, if the answer is very brief, you may add one or two related sentences to enrich the content.
- Choose an appropriate and visually appealing format for your response based on the user's requirements and the content of the answer, ensuring strong readability.
- Your answer should synthesize information from multiple relevant webpages and avoid repeatedly citing the same webpage.
- Unless the user requests otherwise, your response should be in the same language as the user's question.
# The user's message is:
{question}'''
ローカルでの実行方法
DeepSeek-V3-0324のモデル構造はDeepSeek-V3とまったく同じです。このモデルをローカルで実行する方法の詳細については、DeepSeek-V3リポジトリを参照してください。
このモデルは、関数呼び出し、JSON出力、FIM補完などの機能をサポートしています。これらの機能を使用するためのプロンプト構築方法については、DeepSeek-V2.5リポジトリを参照してください。
注:Hugging FaceのTransformersはまだ直接サポートされていません。
ライセンス
このリポジトリとモデルウェイトはMITライセンスの下でライセンスされています。
引用
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}
連絡先
ご質問がある場合は、イシューを上げるか、service@deepseek.comまでご連絡ください。



