base_model: deepseek-ai/DeepSeek-V3-0324
language:
- ja
library_name: transformers
license: mit
tags:
- deepseek_v3
- deepseek
- unsloth
- transformers
当社のDeepSeek-V3-0324 GGUFを使用すると、llama.cpp、LMStudio、Open WebUIなどの推論フレームワークでモデルを実行できます。
1-4ビットのDynamic v2.0バージョンを含みます:
MoEビット数 |
タイプ |
ディスクサイズ |
リンク |
詳細 |
1.78bit (暫定版) |
IQ1_S |
192GB |
リンク |
MoEのdown_projで2.06/1.78bitの混合使用 |
1.93bit (暫定版) |
IQ1_M |
200GB |
リンク |
MoEのdown_projで2.06/1.93bitの混合使用 |
2.42bit |
IQ2_XXS |
215GB |
リンク |
MoEのdown_projで全て2.42bit使用 |
2.71bit |
Q2_K_XL |
250GB |
リンク |
MoEのdown_projで3.5/2.71bitの混合使用 |
3.5bit |
Q3_K_XL |
296GB |
リンク |
MoEのdown_projで4.5/3.5bitの混合使用 |
4.5bit |
Q4_K_XL |
384GB |
リンク |
MoEのdown_projで5.5/4.5bitの混合使用 |
暫定版 = 予備版 - テストでは概ね良好ですが、時々最適なコードを生成しないことがあり、さらなる作業/テストが必要です。
2.71bitは性能/サイズの面で最適であり、優れたコードを生成します。2.42bitも全てのテストを通過しました。
最良の結果を得るには、2.42ビット(IQ2_XXS)または2.71ビット(Q2_K_XL)バージョンを使用してください。必須ではありませんが、少なくとも180GB以上のVRAM + RAMを確保することをお勧めします。
DeepSeekチームにDeepSeek V3モデルの3月アップデートを公開していただき感謝します。また、bartowskiに初期V3量子化を提供していただき感謝します。
UnslothでR1のような推論モデルをファインチューン!
Llama 3.1(8B)を推論モデルに変換する無料のGoogle Colabノートブックを提供しています:https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb
✨ 無料でファインチューン
全てのノートブックは初心者向けです!データセットを追加し、「Run All」をクリックするだけで、2倍高速なファインチューン済みモデルが得られ、GGUF、vLLMにエクスポートしたり、Hugging Faceにアップロードできます。
特徴
DeepSeek-V3-0324は、前身のDeepSeek-V3と比較して、いくつかの重要な点で顕著な改善を示しています。

推論能力
- ベンチマーク性能の大幅な改善:
- MMLU-Pro: 75.9 → 81.2 (+5.3)
- GPQA: 59.1 → 68.4 (+9.3)
- AIME: 39.6 → 59.4 (+19.8)
- LiveCodeBench: 39.2 → 49.2 (+10.0)
フロントエンドWeb開発
- コードの実行可能性が向上
- より美的なWebページとゲームフロントエンド
中国語ライティング能力
-
スタイルとコンテンツ品質の向上:
- R1ライティングスタイルに準拠
- 中長文ライティングの品質向上
-
機能強化
- マルチターンインタラクティブ書き換えの改善
- 翻訳品質と手紙作成の最適化
中国語検索能力
関数呼び出しの改善
- 関数呼び出しの精度向上、以前のV3バージョンの問題を修正
使用推奨事項
システムプロンプト
公式DeepSeek Web/アプリでは、特定の日付で同じシステムプロンプトを使用しています。
このアシスタントはDeepSeek Chatで、深度求索会社によって作成されました。
今日は{current date}です。
例えば、
このアシスタントはDeepSeek Chatで、深度求索会社によって作成されました。
今日は3月24日、月曜日です。
温度
Webおよびアプリケーション環境では、温度パラメータ$T_{model}$は0.3に設定されています。多くのユーザーがAPI呼び出しでデフォルト温度1.0を使用するため、API温度$T_{api}$マッピングメカニズムを実装し、入力API温度値1.0を最適なモデル温度設定0.3に調整します。
$$
T_{model} = T_{api} \times 0.3 \quad (0 \leq T_{api} \leq 1)
$$
$$
T_{model} = T_{api} - 0.7 \quad (1 < T_{api} \leq 2)
$$
したがって、API経由でV3を呼び出す場合、温度1.0はモデル温度0.3に相当します。
ファイルアップロードとWeb検索のプロンプト
ファイルアップロードの場合、{file_name}、{file_content}、{question}を引数としてプロンプトを作成します。
file_template = \
"""[ファイル名]: {file_name}
[ファイル内容開始]
{file_content}
[ファイル内容終了]
{question}"""
Web検索の場合、{search_results}、{cur_date}、{question}を引数とします。
中国語クエリの場合、以下のプロンプトを使用します:
search_answer_zh_template = \
'''# 以下はユーザーが送信したメッセージに関連する検索結果です:
{search_results}
私が提供する検索結果では、各結果は[webpage X begin]...[webpage X end]形式で、Xは各記事の数字インデックスです。適切な場合、文末にコンテキストを引用してください。回答の対応部分に引用番号[citation:X]の形式で引用してください。一文が複数のコンテキストに由来する場合、[citation:3][citation:5]のように全ての関連引用番号を列挙してください。引用を最後に集中させず、回答の対応部分に列挙してください。
回答時、以下の点に注意してください:
- 今日は{cur_date}です。
- 検索結果の全てがユーザーの質問に密接に関連するわけではありません。質問に基づき、検索結果を評価・フィルタリングしてください。
- 列挙型の質問(例:全てのフライト情報を列挙)の場合、回答を10要点以内に制限し、ユーザーに検索ソースを参照して完全な情報を得られるよう伝えてください。情報が完全で最も関連性の高い列挙項目を優先的に提供し、必要でない限り、検索結果に含まれていない内容を積極的に伝えないでください。
- 創作型の質問(例:論文執筆)の場合、本文の段落内で[citation:3][citation:5]のように対応する参照番号を引用してください。記事末尾のみの引用は避けてください。ユーザーの題目要求を解釈・要約し、適切な形式を選択し、検索結果を十分に活用し、重要な情報を抽出し、ユーザーの要求に合致し、思想的深さ、創造性、専門性に富んだ回答を生成してください。回答の長さを可能な限り延ばし、各要点について多角的な回答要点を提供し、情報量が豊富で詳細な論述を心がけてください。
- 回答が長い場合、構造化し、段落ごとにまとめてください。要点ごとに回答する場合、5要点以内に制限し、関連する内容を統合してください。
- 客観的なQ&Aの場合、回答が非常に短い場合、関連情報を1~2文追加して内容を豊かにしてください。
- ユーザーの要求と回答内容に基づき、適切で美しい回答形式を選択し、可読性を確保してください。
- 回答は複数の関連Webページを総合し、同一Webページを繰り返し引用しないでください。
- ユーザーが要求しない限り、回答言語はユーザーの質問言語と一致させてください。
# ユーザーメッセージ:
{question}'''
英語クエリの場合、以下のプロンプトを使用します:
search_answer_en_template = \
'''# 以下はユーザーのメッセージに関連する検索結果です:
{search_results}
私が提供する検索結果では、各結果は[webpage X begin]...[webpage X end]形式で、Xは各記事の数字インデックスです。適切な場合、文末にコンテキストを引用してください。回答の対応部分に引用番号[citation:X]の形式で引用してください。一文が複数のコンテキストに由来する場合、[citation:3][citation:5]のように全ての関連引用番号を列挙してください。引用を最後に集中させず、回答の対応部分に列挙してください。
回答時、以下の点に注意してください:
- 今日は{cur_date}です。
- 検索結果の全てがユーザーの質問に密接に関連するわけではありません。質問に基づき、検索結果を評価・フィルタリングしてください。
- 列挙型の質問(例:全てのフライト情報を列挙)の場合、回答を10要点以内に制限し、ユーザーに検索ソースを参照して完全な情報を得られるよう伝えてください。情報が完全で最も関連性の高い列挙項目を優先的に提供し、必要でない限り、検索結果に含まれていない内容を積極的に伝えないでください。
- 創作型の質問(例:エッセイ執筆)の場合、本文内で[citation:3][citation:5]のように参照を引用し、記事末尾のみの引用は避けてください。ユーザーの要求を解釈・要約し、適切な形式を選択し、検索結果を十分に活用し、重要な情報を抽出し、洞察に富み、創造的で専門的な回答を生成してください。回答の長さを可能な限り延ばし、各要点について多角的な論述を提供し、情報量が豊富で詳細な内容を心がけてください。
- 回答が長い場合、構造化し、段落ごとにまとめてください。要点ごとに回答する場合、5要点以内に制限し、関連する内容を統合してください。
- 客観的なQ&Aの場合、回答が非常に短い場合、関連情報を1~2文追加して内容を豊かにしてください。
- ユーザーの要求と回答内容に基づき、適切で美しい回答形式を選択し、可読性を確保してください。
- 回答は複数の関連Webページを総合し、同一Webページを繰り返し引用しないでください。
- ユーザーが要求しない限り、回答言語はユーザーの質問言語と一致させてください。
# ユーザーメッセージ:
{question}'''
ローカルでの実行方法
DeepSeek-V3-0324のモデル構造はDeepSeek-V3と完全に同じです。このモデルをローカルで実行する方法の詳細については、DeepSeek-V3リポジトリを参照してください。
このモデルは関数呼び出し、JSON出力、FIM補完などの機能をサポートしています。これらの機能を使用するためのプロンプト構築方法については、DeepSeek-V2.5リポジトリを参照してください。
注:Hugging FaceのTransformersはまだ直接サポートされていません。
ライセンス
このリポジトリとモデル重みはMITライセンスの下でライセンスされています。
引用
@misc{deepseekai2024deepseekv3technicalreport,
title={DeepSeek-V3 Technical Report},
author={DeepSeek-AI},
year={2024},
eprint={2412.19437},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2412.19437},
}
連絡先
ご質問がある場合は、イシューを立てるか、service@deepseek.comまでご連絡ください。