DeepSeek-V2-Lite-Chat-IMat-GGUFオープンソースモデル - 複数の量子化タイプをサポートするローカルデプロイ推論

ホーム

Deepseek V2 Lite Chat IMat GGUF

legraphistaによって開発

DeepSeek-V2-Lite-ChatのGGUF量子化バージョンで、複数の量子化タイプをサポートし、ローカル展開と推論に適しています。

大規模言語モデル #効率的な量子化推論 #低リソース展開 #中国語対話最適化

ダウンロード数 1,413

リリース時間 : 5/26/2024

モデル概要

これはdeepseek-ai/DeepSeek-V2-Lite-ChatモデルのLlama.cpp imatrix量子化バージョンで、テキスト生成タスクに適しています。

モデル特徴

複数量子化オプション

Q8_0からIQ1_Sまでの複数量子化バージョンを提供し、様々なハードウェアと性能ニーズに対応。

IMatrix量子化サポート

一部の量子化バージョンはIMatrix技術を使用しており、量子化後のモデル性能を向上させる可能性があります。

ローカル推論最適化

GGUFフォーマットはローカル推論に最適化されており、コンシューマーレベルのハードウェアでの実行に適しています。

モデル能力

テキスト生成

対話インタラクション

中国語タスクのサポート

使用事例

チャットアプリケーション

インテリジェント対話アシスタント

ローカルチャットボットとして展開し、インテリジェントな対話サービスを提供。

流暢な中国語対話体験

コンテンツ生成

テキスト作成支援

ユーザーが記事やストーリーなどのテキストコンテンツを生成するのを支援。

文脈に合った一貫性のあるテキストを生成

🚀 DeepSeek-V2-Lite-Chat-IMat-GGUF

このプロジェクトは、deepseek-ai/DeepSeek-V2-Lite-Chatをllama.cppのimatix量子化を行ったものです。元のモデルの情報や量子化の詳細を提供しています。

🚀 クイックスタート

このプロジェクトのモデルを使用するには、以下の手順に従ってください。

モデル情報

属性	详情
ベースモデル	deepseek-ai/DeepSeek-V2-Lite-Chat
推論	false
ライブラリ名	gguf
パイプラインタグ	テキスト生成
量子化担当者	legraphista
タグ	量子化, GGUF, imatrix, 量子化, imat, imatrix, 静的

元のモデル: deepseek-ai/DeepSeek-V2-Lite-Chat
元のデータ型: BF16 (bfloat16)
量子化: llama.cpp fork PR 7519
IMatrixデータセット: こちら

✨ 主な機能

元のモデルをimatix量子化することで、モデルのサイズを削減し、推論速度を向上させます。
様々な量子化タイプのモデルを提供しています。

📦 インストール

huggingface-cliを使用したダウンロード

まず、hugginface-cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

次に、ダウンロードしたい特定のファイルを指定できます。

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./

モデルが50GB以上の場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
# GGUFのマージについてはFAQを参照してください

💻 使用例

基本的な使用法

シンプルなチャットテンプレート

<｜begin▁of▁sentence｜>User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

システムプロンプト付きのチャットテンプレート

<｜begin▁of▁sentence｜>{system_message}

User: {user_message_1}

Assistant: {assistant_message_1}<｜end▁of▁sentence｜>User: {user_message_2}

Assistant:

Llama.cppを使用した推論

llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"

📚 詳細ドキュメント

ファイル情報

IMatrix

状態: ✅ 利用可能
リンク: こちら

一般的な量子化

ファイル名	量子化タイプ	ファイルサイズ	状態	IMatrixを使用	分割されている
DeepSeek-V2-Lite-Chat.Q8_0.gguf	Q8_0	16.70GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.Q6_K.gguf	Q6_K	14.07GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.Q4_K.gguf	Q4_K	10.36GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.Q3_K.gguf	Q3_K	8.13GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.Q2_K.gguf	Q2_K	6.43GB	✅ 利用可能	🟢 はい	📦 いいえ

すべての量子化

ファイル名	量子化タイプ	ファイルサイズ	状態	IMatrixを使用	分割されている
DeepSeek-V2-Lite-Chat.FP16.gguf	F16	31.42GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.BF16.gguf	BF16	31.42GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.Q5_K.gguf	Q5_K	11.85GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.Q5_K_S.gguf	Q5_K_S	11.14GB	✅ 利用可能	⚪ いいえ	📦 いいえ
DeepSeek-V2-Lite-Chat.Q4_K_S.gguf	Q4_K_S	9.53GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.Q3_K_L.gguf	Q3_K_L	8.46GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.Q3_K_S.gguf	Q3_K_S	7.49GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.Q2_K_S.gguf	Q2_K_S	6.46GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ4_NL.gguf	IQ4_NL	8.91GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ4_XS.gguf	IQ4_XS	8.57GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ3_M.gguf	IQ3_M	7.55GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ3_S.gguf	IQ3_S	7.49GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ3_XS.gguf	IQ3_XS	7.12GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ3_XXS.gguf	IQ3_XXS	6.96GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ2_M.gguf	IQ2_M	6.33GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ2_S.gguf	IQ2_S	6.01GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ2_XS.gguf	IQ2_XS	5.97GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ2_XXS.gguf	IQ2_XXS	5.64GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ1_M.gguf	IQ1_M	5.24GB	✅ 利用可能	🟢 はい	📦 いいえ
DeepSeek-V2-Lite-Chat.IQ1_S.gguf	IQ1_S	4.99GB	✅ 利用可能	🟢 はい	📦 いいえ

🔧 技術詳細

なぜIMatrixがすべての箇所に適用されていないのですか？

この調査によると、低い量子化のみがimatrix入力の恩恵を受けるようです（hellaswagの結果に基づく）。

分割されたGGUFをマージするにはどうすればいいですか？

gguf-splitが利用可能であることを確認してください。
- gguf-splitを入手するには、https://github.com/ggerganov/llama.cpp/releases にアクセスしてください。
- 最新のリリースからシステムに適したzipファイルをダウンロードしてください。
- アーカイブを解凍すると、gguf-splitが見つかるはずです。
GGUFのチャンクフォルダ（例: DeepSeek-V2-Lite-Chat.Q8_0）を見つけてください。
gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.ggufを実行してください。
- gguf-splitを分割された最初のチャンクに指定するようにしてください。