モデル概要

DeepSeek-R1 は transformers ベースの大規模言語モデルで、英語をサポートし、MIT ライセンスで公開されています。Unsloth Dynamic v2.0 量子化技術により、効率的な推論を維持しながら精度を向上させています。

モデル特徴

Unsloth Dynamic v2.0 量子化

1.58ビット + 2ビット動的量子化技術を採用し、標準的な量子化手法と比べて精度が大幅に向上しています。

選択的量子化

重要な部分を選択的に量子化することで、モデルの性能を維持しながらリソース消費を削減します。

効率的な推論

最適化された量子化モデルは、高い精度を維持しながら、より高速な推論を実現します。

モデル能力

テキスト生成

言語理解

文脈推論

使用事例

自然言語処理

テキスト生成

一貫性があり論理的なテキストコンテンツの生成に使用できます。

生成品質が高く、文脈の一貫性が良好

質問応答システム

知識ベースの質問応答システムの構築。

正確な回答を提供可能

base_model: deepseek-ai/DeepSeek-R1 language:

en library_name: transformers license: mit tags:
deepseek
unsloth
transformers

Unsloth Dynamic v2.0は優れた精度を達成し、他の主要な量子化手法を凌駕しています。

UnslothのDeepSeek-R1 1.58ビット + 2ビットダイナミック量子化は選択的に量子化されており、標準的な1ビット/2ビットに比べて精度が大幅に向上しています。

llama.cppでこのモデルを実行する手順:

または、より詳細な手順はこちらで確認できます: unsloth.ai/blog/deepseekr1-dynamic

とのトークンを忘れないでください！ - またはチャットテンプレートフォーマッタを使用してください
最新のllama.cppをhttps://github.com/ggerganov/llama.cppから入手してください。以下のビルド手順に従うこともできます:

apt-get update
apt-get install build-essential cmake curl libcurl4-openssl-dev -y
git clone https://github.com/ggerganov/llama.cpp
cmake llama.cpp -B llama.cpp/build \
	-DBUILD_SHARED_LIBS=OFF -DGGML_CUDA=ON -DLLAMA_CURL=ON
cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split
cp llama.cpp/build/bin/llama-* llama.cpp

非常に稀なトークン予測に対抗するために--min-p 0.05を使用するのが最適です - 特に1.58ビットモデルでうまく機能することがわかりました。
モデルをダウンロード:

# pip install huggingface_hub hf_transfer
# import os # 高速ダウンロードのため任意
# os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1"

from huggingface_hub import snapshot_download
snapshot_download(
  repo_id = "unsloth/DeepSeek-R1-GGUF",
  local_dir = "DeepSeek-R1-GGUF",
  allow_patterns = ["*UD-IQ1_S*"], # 1.58ビット用にUD-IQ1_S量子化タイプを選択
)

Q8_0 K量子化キャッシュの例 注意 -no-cnvは自動会話モードを無効にします

   ./llama.cpp/llama-cli \
	  --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
	  --cache-type-k q8_0 \
	  --threads 12 -no-cnv --prio 2 \
	  --temp 0.6 \
	  --ctx-size 8192 \
	  --seed 3407 \
	  --prompt "````PythonでFlappy Birdゲームを作成してください。````"

出力例:

 <考え中>
 1足す1が何かを理解する必要があります。どこから始めればいいでしょうか？学校で数字の足し算は基本的だと覚えていますが、正しく理解しているか確認したいです。
 1足す1について考えてみましょう。1つのアイテムにもう1つを加えると、例えばリンゴ1つにもう1つリンゴを加えると、2つのリンゴになります。つまり、1足す1は2になるはずです。これは理にかなっています。
 待ってください、数学は時々トリッキーです。他の可能性はありますか？例えば、別の数字システムでは？しかし、この質問は通常の数字を使った単純なものだと思います。
 算術では、足し算は量を組み合わせることだと覚えています。1の量が2つある場合、組み合わせると合計2になります。はい、正しいようです。
 1足す1が2にならないシナリオはありますか？思いつきません...

GPU（例えばRTX 4090）を24GB搭載している場合、複数のレイヤーをGPUにオフロードして処理を高速化できます。複数GPUがある場合は、さらに多くのレイヤーをオフロードできます。

  ./llama.cpp/llama-cli \
    --model DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    --cache-type-k q8_0 \
    --threads 12 -no-cnv --prio 2 \
    --n-gpu-layers 7 \
    --temp 0.6 \
    --ctx-size 8192 \
    --seed 3407 \
    --prompt "````PythonでFlappy Birdゲームを作成してください。````"

重みを結合したい場合は、このスクリプトを使用してください:

./llama.cpp/llama-gguf-split --merge \
    DeepSeek-R1-GGUF/DeepSeek-R1-UD-IQ1_S-00001-of-00003.gguf \
    merged_file.gguf

MoEビット	タイプ	ディスクサイズ	精度	リンク	詳細
1.58bit	UD-IQ1_S	131GB	良好	リンク	MoE全体1.56bit。MoEの`down_proj`は2.06/1.56bit混合
1.73bit	UD-IQ1_M	158GB	優良	リンク	MoE全体1.56bit。MoEの`down_proj`は2.06bit固定
2.22bit	UD-IQ2_XXS	183GB	さらに優良	リンク	MoE全体2.06bit。MoEの`down_proj`は2.5/2.06bit混合
2.51bit	UD-Q2_K_XL	212GB	最良	リンク	MoE全体2.5bit。MoEの`down_proj`は3.5/2.5bit混合

UnslothでR1のような独自の推論モデルをファインチューニング！

Llama 3.1 (8B)を推論モデルに変換するための無料Google Colabノートブックがあります: https://colab.research.google.com/github/unslothai/notebooks/blob/main/nb/Llama3.1_(8B)-GRPO.ipynb

✨ 無料でファインチューニング

すべてのノートブックは初心者向けです！データセットを追加し、「すべて実行」をクリックするだけで、GGUF、vLLMにエクスポート可能な2倍高速なファインチューニング済みモデルが得られます。

Unslothがサポート	無料ノートブック	パフォーマンス	メモリ使用量
GRPO with Phi-4 (14B)	▶️ Colabで開始	2倍高速	80%削減
Llama-3.2 (3B)	▶️ Colabで開始	2.4倍高速	58%削減
Llama-3.2 (11B vision)	▶️ Colabで開始	2倍高速	60%削減
Qwen2 VL (7B)	▶️ Colabで開始	1.8倍高速	60%削減
Qwen2.5 (7B)	▶️ Colabで開始	2倍高速	60%削減
Llama-3.1 (8B)	▶️ Colabで開始	2.4倍高速	58%削減
Phi-3.5 (mini)	▶️ Colabで開始	2倍高速	50%削減
Gemma 2 (9B)	▶️ Colabで開始	2.4倍高速	58%削減
Mistral (7B)	▶️ Colabで開始	2.2倍高速	62%削減