🚀 DeepSeek-V2-Lite-Chat-IMat-GGUF
このプロジェクトは、deepseek-ai/DeepSeek-V2-Lite-Chatをllama.cppのimatix量子化を行ったものです。元のモデルの情報や量子化の詳細を提供しています。
🚀 クイックスタート
このプロジェクトのモデルを使用するには、以下の手順に従ってください。
モデル情報
属性 |
详情 |
ベースモデル |
deepseek-ai/DeepSeek-V2-Lite-Chat |
推論 |
false |
ライブラリ名 |
gguf |
パイプラインタグ |
テキスト生成 |
量子化担当者 |
legraphista |
タグ |
量子化, GGUF, imatrix, 量子化, imat, imatrix, 静的 |
元のモデル: deepseek-ai/DeepSeek-V2-Lite-Chat
元のデータ型: BF16
(bfloat16
)
量子化: llama.cpp fork PR 7519
IMatrixデータセット: こちら
✨ 主な機能
- 元のモデルをimatix量子化することで、モデルのサイズを削減し、推論速度を向上させます。
- 様々な量子化タイプのモデルを提供しています。
📦 インストール
huggingface-cliを使用したダウンロード
まず、hugginface-cliがインストールされていることを確認してください。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードしたい特定のファイルを指定できます。
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0.gguf" --local-dir ./
モデルが50GB以上の場合、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。
huggingface-cli download legraphista/DeepSeek-V2-Lite-Chat-IMat-GGUF --include "DeepSeek-V2-Lite-Chat.Q8_0/*" --local-dir DeepSeek-V2-Lite-Chat.Q8_0
# GGUFのマージについてはFAQを参照してください
💻 使用例
基本的な使用法
シンプルなチャットテンプレート
<|begin▁of▁sentence|>User: {user_message_1}
Assistant: {assistant_message_1}<|end▁of▁sentence|>User: {user_message_2}
Assistant:
システムプロンプト付きのチャットテンプレート
<|begin▁of▁sentence|>{system_message}
User: {user_message_1}
Assistant: {assistant_message_1}<|end▁of▁sentence|>User: {user_message_2}
Assistant:
Llama.cppを使用した推論
llama.cpp/main -m DeepSeek-V2-Lite-Chat.Q8_0.gguf --color -i -p "prompt here (according to the chat template)"
📚 詳細ドキュメント
ファイル情報
IMatrix
状態: ✅ 利用可能
リンク: こちら
一般的な量子化
すべての量子化
🔧 技術詳細
なぜIMatrixがすべての箇所に適用されていないのですか?
この調査によると、低い量子化のみがimatrix入力の恩恵を受けるようです(hellaswagの結果に基づく)。
分割されたGGUFをマージするにはどうすればいいですか?
gguf-split
が利用可能であることを確認してください。
gguf-split
を入手するには、https://github.com/ggerganov/llama.cpp/releases にアクセスしてください。
- 最新のリリースからシステムに適したzipファイルをダウンロードしてください。
- アーカイブを解凍すると、
gguf-split
が見つかるはずです。
- GGUFのチャンクフォルダ(例:
DeepSeek-V2-Lite-Chat.Q8_0
)を見つけてください。
gguf-split --merge DeepSeek-V2-Lite-Chat.Q8_0/DeepSeek-V2-Lite-Chat.Q8_0-00001-of-XXXXX.gguf DeepSeek-V2-Lite-Chat.Q8_0.gguf
を実行してください。
gguf-split
を分割された最初のチャンクに指定するようにしてください。
📄 ライセンス
本READMEにはライセンス情報が記載されていません。
サポート
提案があれば、@legraphistaまでご連絡ください!