base_model: deepseek-ai/DeepSeek-R1
language:
- en
library_name: transformers
license: mit
tags:
- deepseek
- unsloth
- transformers
または、より詳細な手順はこちらで確認できます: unsloth.ai/blog/deepseekr1-dynamic
と
のトークンを忘れないでください! - またはチャットテンプレートフォーマッタを使用してください
- 最新の
llama.cpp
をhttps://github.com/ggerganov/llama.cppから入手してください。以下のビルド手順に従うこともできます:
apt-get update
apt-get install build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp
- 非常に稀なトークン予測に対抗するために
--min-p 0.05
を使用するのが最適です - 特に1.58ビットモデルでうまく機能することがわかりました。
- モデルをダウンロード:
from huggingface_hub import snapshot_download
snapshot_download(
repo_id = "unsloth/DeepSeek-R1-GGUF",
local_dir = "DeepSeek-R1-GGUF",
allow_patterns = ["*UD-IQ1_S*"],
)
- Q8_0 K量子化キャッシュの例 注意 -no-cnvは自動会話モードを無効にします
./llama.cpp/llama-cli \
--model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--cache-type-k q8_0 \
--threads 12 -no-cnv --prio 2 \
--temp 0.6 \
--ctx-size 8192 \
--seed 3407 \
--prompt "````PythonでFlappy Birdゲームを作成してください。````"
出力例:
<考え中>
1足す1が何かを理解する必要があります。どこから始めればいいでしょうか?学校で数字の足し算は基本的だと覚えていますが、正しく理解しているか確認したいです。
1足す1について考えてみましょう。1つのアイテムにもう1つを加えると、例えばリンゴ1つにもう1つリンゴを加えると、2つのリンゴになります。つまり、1足す1は2になるはずです。これは理にかなっています。
待ってください、数学は時々トリッキーです。他の可能性はありますか?例えば、別の数字システムでは?しかし、この質問は通常の数字を使った単純なものだと思います。
算術では、足し算は量を組み合わせることだと覚えています。1の量が2つある場合、組み合わせると合計2になります。はい、正しいようです。
1足す1が2にならないシナリオはありますか?思いつきません...
- GPU(例えばRTX 4090)を24GB搭載している場合、複数のレイヤーをGPUにオフロードして処理を高速化できます。複数GPUがある場合は、さらに多くのレイヤーをオフロードできます。
./llama.cpp/llama-cli \
--model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
--cache-type-k q8_0 \
--threads 12 -no-cnv --prio 2 \
--n-gpu-layers 7 \
--temp 0.6 \
--ctx-size 8192 \
--seed 3407 \
--prompt "````PythonでFlappy Birdゲームを作成してください。````"
- 重みを結合したい場合は、このスクリプトを使用してください:
./llama.cpp/llama-gguf-split --merge \
DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
merged_file.gguf
MoEビット |
タイプ |
ディスクサイズ |
精度 |
リンク |
詳細 |
1.58bit |
UD-IQ1_S |
131GB |
良好 |
リンク |
MoE全体1.56bit。MoEのdown_proj は2.06/1.56bit混合 |
1.73bit |
UD-IQ1_M |
158GB |
優良 |
リンク |
MoE全体1.56bit。MoEのdown_proj は2.06bit固定 |
2.22bit |
UD-IQ2_XXS |
183GB |
さらに優良 |
リンク |
MoE全体2.06bit。MoEのdown_proj は2.5/2.06bit混合 |
2.51bit |
UD-Q2_K_XL |
212GB |
最良 |
リンク |
MoE全体2.5bit。MoEのdown_proj は3.5/2.5bit混合 |
UnslothでR1のような独自の推論モデルをファインチューニング!
Llama 3.1 (8B)を推論モデルに変換するための無料Google Colabノートブックがあります: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

✨ 無料でファインチューニング
すべてのノートブックは初心者向けです!データセットを追加し、「すべて実行」をクリックするだけで、GGUF、vLLMにエクスポート可能な2倍高速なファインチューニング済みモデルが得られます。

謝辞
これらのモデルを作成・公開してくれたDeepSeekチームに心から感謝します。