Microsoft NextCoder - 32B - GGUFオープンソースコードモデル - 定量化可能で効率的にデプロイして実行可能

ホーム

Microsoft NextCoder 32B GGUF

bartowskiによって開発

マイクロソフトNextCoder - 32Bモデルの量子化バージョンで、llama.cppツールを使用して元のモデルを量子化処理し、さまざまなハードウェア条件下でより効率的にモデルを実行できるようにします。

大規模言語モデル複数言語対応オープンソースライセンス:MIT #高効率な量子化推論 #多様なハードウェアへの適合 #プログラミング支援AI

ダウンロード数 2,495

リリース時間 : 7/10/2025

モデル概要

このプロジェクトは、マイクロソフトNextCoder - 32Bモデルのさまざまな量子化バージョンを提供し、さまざまなハードウェア条件下での高効率な実行をサポートし、コード生成とプログラミング支援タスクに適しています。

モデル特徴

多様な量子化タイプ

bf16、Q8_0、Q6_K_Lなど、豊富な量子化タイプを提供し、さまざまなパフォーマンスと品質の要件を満たすことができます。

オンライン再パッケージ化

一部の量子化タイプはオンラインでの重みの再パッケージ化をサポートし、ARMおよびAVXマシンで自動的にパフォーマンスを最適化できます。

柔軟なダウンロード

huggingface-cliを使用して特定のファイルまたはモデルブランチ全体をダウンロードでき、ユーザーが必要に応じて取得できます。

モデル能力

コード生成

プログラミング支援

高効率な推論

使用事例

プログラミング開発

コード補完

プログラミング環境でコード補完の提案を提供し、開発効率を向上させます。

コード生成

ユーザーの要求に基づいて特定の機能のコードスニペットを生成します。

🚀 MicrosoftによるNextCoder - 32BのLlamacpp imatrix量子化

このプロジェクトは、MicrosoftのNextCoder - 32Bモデルを量子化したものです。量子化には、llama.cppのリリース b5856 を使用しています。

基本情報

属性	详情
量子化担当者	bartowski
パイプラインタグ	テキスト生成
ベースモデル	microsoft/NextCoder - 32B
ベースモデル関係	量子化済み
ライセンス	MIT
言語	英語
タグ	コード、チャット、Microsoft、NextCoder、selekt
データセット	microsoft/NextCoderDataset、microsoft/NextCoderDataset - Conversational、bigcode/commitpackft、bigcode/starcoderdata

元モデル

元のモデルは、こちらで確認できます。

量子化の詳細

すべての量子化は、ここのデータセットを使用し、imatrixオプションで行われています。

🚀 クイックスタート

量子化されたモデルは、LM Studio で実行することも、llama.cpp を直接使用して実行することもできます。

プロンプトフォーマット

<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant

📦 インストール

huggingface - cliを使用したダウンロード

まず、huggingface - cliがインストールされていることを確認してください。

pip install -U "huggingface_hub[cli]"

特定のファイルをダウンロードするには、以下のコマンドを使用します。

huggingface-cli download bartowski/microsoft_NextCoder-32B-GGUF --include "microsoft_NextCoder-32B-Q4_K_M.gguf" --local-dir ./

モデルが50GBを超える場合は、複数のファイルに分割されています。すべてのファイルをローカルフォルダにダウンロードするには、以下のコマンドを実行します。

huggingface-cli download bartowski/microsoft_NextCoder-32B-GGUF --include "microsoft_NextCoder-32B-Q8_0/*" --local-dir ./

📄 ダウンロード可能なファイル

ファイル名	量子化タイプ	ファイルサイズ	分割	説明
NextCoder-32B-bf16.gguf	bf16	65.54GB	true	完全なBF16ウェイト。
NextCoder-32B-Q8_0.gguf	Q8_0	34.82GB	false	非常に高品質で、通常は必要ありませんが、利用可能な最大の量子化。
NextCoder-32B-Q6_K_L.gguf	Q6_K_L	27.26GB	false	埋め込みと出力ウェイトをQ8_0に量子化。非常に高品質で、ほぼ完璧で、おすすめ。
NextCoder-32B-Q6_K.gguf	Q6_K	26.89GB	false	非常に高品質で、ほぼ完璧で、おすすめ。
NextCoder-32B-Q5_K_L.gguf	Q5_K_L	23.74GB	false	埋め込みと出力ウェイトをQ8_0に量子化。高品質で、おすすめ。
NextCoder-32B-Q5_K_M.gguf	Q5_K_M	23.26GB	false	高品質で、おすすめ。
NextCoder-32B-Q5_K_S.gguf	Q5_K_S	22.64GB	false	高品質で、おすすめ。
NextCoder-32B-Q4_1.gguf	Q4_1	20.64GB	false	レガシーフォーマット。Q4_K_Sと同様のパフォーマンスで、Appleシリコンでのトークン/ワットが改善されています。
NextCoder-32B-Q4_K_L.gguf	Q4_K_L	20.43GB	false	埋め込みと出力ウェイトをQ8_0に量子化。良い品質で、おすすめ。
NextCoder-32B-Q4_K_M.gguf	Q4_K_M	19.85GB	false	良い品質で、ほとんどのユースケースでのデフォルトサイズ、おすすめ。
NextCoder-32B-Q4_K_S.gguf	Q4_K_S	18.78GB	false	品質がやや低いが、より多くのスペースを節約できます、おすすめ。
NextCoder-32B-Q4_0.gguf	Q4_0	18.71GB	false	レガシーフォーマット。ARMおよびAVX CPU推論のためのオンライン再パッキングを提供します。
NextCoder-32B-IQ4_NL.gguf	IQ4_NL	18.68GB	false	IQ4_XSに似ていますが、少し大きいです。ARM CPU推論のためのオンライン再パッキングを提供します。
NextCoder-32B-Q3_K_XL.gguf	Q3_K_XL	17.93GB	false	埋め込みと出力ウェイトをQ8_0に量子化。品質は低いが使用可能で、低RAM環境に適しています。
NextCoder-32B-IQ4_XS.gguf	IQ4_XS	17.69GB	false	適度な品質で、Q4_K_Sよりも小さく、同様のパフォーマンスを持ち、おすすめ。
NextCoder-32B-Q3_K_L.gguf	Q3_K_L	17.25GB	false	品質は低いが使用可能で、低RAM環境に適しています。
NextCoder-32B-Q3_K_M.gguf	Q3_K_M	15.94GB	false	低品質。
NextCoder-32B-IQ3_M.gguf	IQ3_M	14.81GB	false	中低品質で、Q3_K_Mに匹敵する適度なパフォーマンスを持つ新しい方法。
NextCoder-32B-Q3_K_S.gguf	Q3_K_S	14.39GB	false	低品質で、おすすめしません。
NextCoder-32B-IQ3_XS.gguf	IQ3_XS	13.71GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3_K_Sよりも少し良い。
NextCoder-32B-Q2_K_L.gguf	Q2_K_L	13.07GB	false	埋め込みと出力ウェイトをQ8_0に量子化。非常に低品質ですが、意外と使用可能です。
NextCoder-32B-IQ3_XXS.gguf	IQ3_XXS	12.84GB	false	低品質で、適度なパフォーマンスを持つ新しい方法で、Q3量子化に匹敵します。
NextCoder-32B-Q2_K.gguf	Q2_K	12.31GB	false	非常に低品質ですが、意外と使用可能です。
NextCoder-32B-IQ2_M.gguf	IQ2_M	11.26GB	false	比較的低品質ですが、最先端の技術を使用しているため、意外と使用可能です。
NextCoder-32B-IQ2_S.gguf	IQ2_S	10.39GB	false	低品質ですが、最先端の技術を使用しているため、使用可能です。
NextCoder-32B-IQ2_XS.gguf	IQ2_XS	9.96GB	false	低品質ですが、最先端の技術を使用しているため、使用可能です。
NextCoder-32B-IQ2_XXS.gguf	IQ2_XXS	9.03GB	false	非常に低品質ですが、最先端の技術を使用しているため、使用可能です。

🔧 技術詳細

埋め込み/出力ウェイト

一部の量子化（Q3_K_XL、Q4_K_Lなど）は、標準的な量子化方法で、埋め込みと出力ウェイトが通常のデフォルトではなくQ8_0に量子化されています。

ARM/AVX情報

以前は、Q4_0_4_4/4_8/8_8をダウンロードし、メモリ内でウェイトをインターリーブすることで、ARMおよびAVXマシンでのパフォーマンスを向上させていました。

現在では、ウェイトの「オンライン再パッキング」と呼ばれる機能があります。詳細はこのPR を参照してください。Q4_0を使用し、ハードウェアがウェイトの再パッキングによって恩恵を受ける場合、自動的に実行されます。

llama.cppビルド b4282 以降、Q4_0_X_Xファイルを実行することはできず、代わりにQ4_0を使用する必要があります。

また、このPR により、IQ4_NLを使用することで、少し品質を向上させることができます。これはARM用にウェイトを再パッキングしますが、現在は4_4のみです。読み込み時間は長くなる可能性がありますが、全体的な速度が向上します。

ファイルの選択方法

どのファイルを選べばいいか迷った場合は、こちらのチャートが参考になります。まずは、実行できるモデルのサイズを決めましょう。これには、持っているRAMやVRAMの容量を把握する必要があります。

できるだけ高速にモデルを実行したい場合は、GPUのVRAMに全体を収めることを目指しましょう。VRAMの総容量よりも1 - 2GB小さいファイルサイズの量子化を選びます。

最高の品質を求める場合は、システムRAMとGPUのVRAMを合計し、その合計よりも1 - 2GB小さいファイルサイズの量子化を選びます。

次に、'I - 量子化' または 'K - 量子化' を使用するかを決めます。

あまり考えたくない場合は、K - 量子化のいずれかを選びましょう。これらは 'QX_K_X' の形式で、Q5_K_Mのようなものです。

もっと詳細に調べたい場合は、この便利な機能チャートをチェックしてください。

基本的に、Q4以下を目指し、cuBLAS（Nvidia）またはrocBLAS（AMD）を使用している場合は、I - 量子化を検討しましょう。これらはIQX_Xの形式で、IQ3_Mのようなものです。これらは新しく、サイズに対してより良いパフォーマンスを提供します。

これらのI - 量子化はCPUでも使用できますが、同等のK - 量子化よりも遅くなります。したがって、速度とパフォーマンスのトレードオフを決める必要があります。

📄 ライセンス

このプロジェクトはMITライセンスの下で公開されています。

クレジット

imatrixキャリブレーションデータセットの作成に協力してくれたkalomazeとDampfに感謝します。埋め込み/出力の実験のインスピレーションをくれたZeroWwに感謝します。私の仕事を支援してくれたLM Studioに感謝します。

私の仕事を支援したい場合は、こちらのko - fiページを訪れてください。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご