モデル概要
モデル特徴
モデル能力
使用事例
🚀 xlangaiのJedi-3 B-1080 pのLlamacpp imatrix量子化バージョン
本プロジェクトはxlangaiのJedi-3 B-1080 pモデルの量子化バージョンであり、特定のツールとデータセットを用いて量子化処理を行い、多種の環境で実行でき、異なるハードウェア条件と需要のユーザーに豊富な選択肢を提供している。
🚀 クイックスタート
本プロジェクトではllama.cppリリースバージョンb 5524で量子化を行う。 元のモデルアドレス:https://huggingface.co/xlangai/Jedi-3B-1080p すべての量子化モデルはimatrixオプションを使用し、[ここ](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8)のデータセットが表示されます。 [LM Studio](https://lmstudio.ai/)でこれらの量子化モデルを実行するか、[llama.cpp](https://github.com/ggerganov/llama.cpp)またはllama.cppベースのアイテムを使用して実行します。
✨ 主な特徴
-*多様な量子化タイプ:bf 16、Q 8 _ 0、Q 6 _ K _ Lなどの豊富な量子化タイプを提供し、異なる性能と品質ニーズを満たす。 -*特定重み処理:部分量子化モデル(Q 3 _ K _ XL、Q 4 _ K _ Lなど)は特殊な量子化方法を採用し、埋め込みと出力重みをQ 8 _ 0に量子化し、性能を向上させる。 -オンライン再パッケージ:一部の量子化モデルはオンライン再パッケージをサポートしており、ハードウェアに基づいてパフォーマンスを自動的に最適化できます。
📦 インストールガイド
####huggingface-cliを使用したダウンロード まず、huggingface-cliがインストールされていることを確認します。
pip install -U "huggingface_hub[cli]"
次に、ダウンロードする特定のファイルを指定できます。
huggingface-cli download bartowski/xlangai_Jedi-3B-1080p-GGUF --include "xlangai_Jedi-3B-1080p-Q4_K_M.gguf" --local-dir ./
モデルサイズが50 GBを超えると、複数のファイルに分割されます。それらをすべてローカルフォルダにダウンロードするには、次の手順に従います。
huggingface-cli download bartowski/xlangai_Jedi-3B-1080p-GGUF --include "xlangai_Jedi-3B-1080p-Q8_0/*" --local-dir ./
xlangai _ Jedi-3 B-1080 p-Q 8 _ 0などの新しいローカルディレクトリを指定したり、すべて現在のディレクトリにダウンロードしたりすることができます(./)。
💻 使用例
####ヒント形式
<|im_start|>system
{system_prompt}<|im_end|>
<|im_start|>user
{prompt}<|im_end|>
<|im_start|>assistant
📚 詳細ドキュメント
#####ダウンロードファイル選択 |ファイル名|量子化タイプ|ファイルサイズ|分割状況|説明| | -------- | ---------- | --------- | ----- | ----------- | | Jedi-3B-1080p-bf16.gguf|bf 16|6.18 GB|false|完全なBF 16重み。 | | Jedi-3B-1080p-Q8_0.gguf|Q 8 _ 0|3.29 GB|false|極めて高品質で、通常は必要ありませんが、最大使用可能な量子化です。 | | Jedi-3B-1080p-Q6_K_L.gguf|Q 6 _ K _ L|2.61 GB|false|埋め込みと出力の重みをQ 8 _ 0に量子化します。非常に高品質で完璧に近いおすすめ。 | | Jedi-3B-1080p-Q6_K.gguf|Q 6 _ K|2.54 GB|false|非常に高品質で完璧に近い、おすすめ。 | | Jedi-3B-1080p-Q5_K_L.gguf|Q 5 _ K _ L|2.30 GB|false|埋め込みおよび出力重みをQ 8 _ 0に量子化します。高品質、推奨。 | | Jedi-3B-1080p-Q5_K_M.gguf|Q 5 _ K _ M|2.22 GB|false|高品質、推奨。 | | Jedi-3B-1080p-Q5_K_S.gguf|Q 5 _ K _ S|2.17 GB|false|高品質、推奨。 | | Jedi-3B-1080p-Q4_K_L.gguf|Q 4 _ K _ L|2.01 GB|false|埋め込みと出力の重みをQ 8 _ 0に量子化します。品質は良好で、は。 | | Jedi-3B-1080p-Q4_1.gguf|Q 4 _ 1|2.00 GB|false|旧フォーマットで、性能はQ 4 _ K _ Sと似ているが、Appleシリコンチップ上の1ワット当たりのトークン数は向上している。 | | Jedi-3B-1080p-Q4_K_M.gguf|Q 4 _ K _ M|1.93 GB|false|品質が良く、ほとんどのユースケースのデフォルトサイズであり、推奨。 | | Jedi-3B-1080p-Q4_K_S.gguf|Q 4 _ K _ S|1.83 GB|false|品質はやや低いが、より多くのスペースを節約し、推奨。 | | [Jedi-3B-1080p-Q4_0.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-Q4_0.gguf)|Q 4 _ 0|1.83 GB|false|旧フォーマットで、ARMとAVX CPUの推理のためのオンライン再パッケージをサポートしています。 | | [Jedi-3B-1080p-IQ4_NL.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-IQ4_NL.gguf)|IQ 4 _ NL|1.83 GB|false|IQ 4 _ XSに似ているが、やや大きい。ARM CPUの推論のためのオンライン再パッケージングをサポートする。 | | Jedi-3B-1080p-Q3_K_XL.gguf|Q 3 _ K _ XL|1.78 GB|false|埋め込みと出力の重みをQ 8 _ 0に量子化します。低品質でありながら使用可能で、低メモリに適しています。 | | Jedi-3B-1080p-IQ4_XS.gguf|IQ 4 _ XS|1.74 GB|false|品質は悪くなく、Q 4 _ K _ Sより小さく、性能は似ていて、お勧め。 | | Jedi-3B-1080p-Q3_K_L.gguf|Q 3 _ K _ L|1.71 GB|false|低品質だが使用可能であり、低メモリの場合に適している。 | | [Jedi-3B-1080p-Q3_K_M.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-Q3_K_M.gguf)|Q 3 _ K _ M|1.59 GB|false|低品質。 | | [Jedi-3B-1080p-IQ3_M.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-IQ3_M.gguf)|IQ 3 _ M|1.49 GB|false|中低品質、新方法、性能はQ 3 _ K _ Mに匹敵する。 | | Jedi-3B-1080p-Q3_K_S.gguf|Q 3 _ K _ S|1.45 GB|false|低品質で、推奨されていません。 | | [Jedi-3B-1080p-IQ3_XS.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-IQ3_XS.gguf)|IQ 3 _ XS|1.39 GB|false|品質が低く、新しい方法で、性能が悪く、Q 3 _ K _ Sよりやや優れている。 | | Jedi-3B-1080p-Q2_K_L.gguf|Q 2 _ K _ L|1.35 GB|false|埋め込みと出力の重みをQ 8 _ 0に量子化します。品質は非常に低いが、意外にも利用できる。 | | [Jedi-3B-1080p-IQ3_XXS.gguf](https://huggingface.co/bartowski/xlangai_Jedi-3B-1080p-GGUF/blob/main/xlangai_Jedi-3B-1080p-IQ3_XXS.gguf)|IQ 3 _ XXS|1.28 GB|false|品質が低く、新方法、性能が悪く、Q 3量子化に相当する。 | | Jedi-3B-1080p-Q2_K.gguf|Q 2 _ K|1.27 GB|false|は非常に低品質ですが、意外にも利用できます。 | | Jedi-3B-1080p-IQ2_M.gguf|IQ 2 _ M|1.14 GB|false|は比較的低品質で、最先端の技術を採用しており、意外にも利用可能です。 | ####埋め込み/出力ウェイト 部分量子化モデル(Q 3 _ K _ XL、Q 4 _ K _ Lなど)は標準的な量子化方法を採用し、埋め込みと出力重みを通常のデフォルト値ではなくQ 8 _ 0に量子化した。 #####ARM/AVX情報 以前は、より多くのデータを一度にロードすることでARMとAVXマシンのパフォーマンスを向上させるためにメモリ内で交互に配置されたQ 4 _ 0 _ 4 _ 4/4 _ 8/8 _ 8をダウンロードしていました。 しかし、現在は「オンライン再パッケージ」と呼ばれる重みの処理方法があり、詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)。Q 4 _ 0を使用し、ハードウェアを再パッケージ化することで利益が得られる場合は、自動的にリアルタイムで再パッケージ化されます。 llama.cppからバージョンを構築する[b 4282](https://github.com/ggerganov/llama.cpp/releases/tag/b4282)から、Q 4 _ 0 _ Xファイルを実行することはできませんが、Q 4 _ 0を使用する必要があります。 また、少し良い品質を手に入れたい場合は、IQ 4 _ NLを使用して、[このPR](https://github.com/ggerganov/llama.cpp/pull/10541)を使用してARMウェイトをカプセル化することもできますが、現在は4 _ 4しかサポートされていません。ロード時間は長くなるかもしれませんが、全体的に速度が上がります。 #####どのファイルを選択しますか? まず、どの程度のモデルを実行できるかを確認する必要があります。そのためには、メモリ(RAM)やビデオメモリ(VRAM)の数を知る必要があります。 -モデルをできるだけ速く実行したい場合は、モデル全体をGPUのグラフィックメモリに入れる必要があります。ファイルサイズがGPUの総グラフィックスメモリより1-2 GB小さい量子化モデルを選択します。 -絶対最高品質を追求する場合は、システムメモリとGPUグラフィックスメモリを加算し、ファイルサイズが合計より1-2 GB小さい量子化モデルを選択します。 次に、「I-quant」を使うか「K-quant」を使うかを決める必要があります。 -あまり考えたくない場合は、K-quantを選択します。これらのモデルのフォーマットは、Q 5 _ K _ Mなどの「QX _ K _ X」です。 -詳細に知りたい場合は、この非常に有用なプロパティチャートを見ることができます。[llama.cppプロパティマトリックス](https://github.com/ggerganov/llama.cpp/wiki/Feature-matrix)。 一般的に、Q 4未満の量子化を目標にしており、cuBLAS(Nvidia)やrocBLAS(AMD)を使用している場合は、I-quantを考慮する必要があります。これらのモデルのフォーマットはIQ 3 _ MなどのIQX _ Xです。これらは新しいモデルで、同じサイズでより良いパフォーマンスを提供します。 これらのI-quantはCPUでも使用できますが、対応するK-quantよりも遅いので、速度と性能の間でトレードオフする必要があります。
🔧 技術的詳細
#####量子化ツール llama.cppリリースバージョンb 5524で量子化を行う。 #####量子化データセット すべての量子化モデルはimatrixオプションを使用し、[ここ](https://gist.github.com/bartowski1182/eb213dccb3571f863da82e99418f81e8)のデータセットが表示されます。 #####オンライン再パッケージ 部分量子化モデルはオンライン再パッケージングをサポートしており、詳細は[このPR](https://github.com/ggerganov/llama.cpp/pull/9921)。
📄 ライセンスらいせんす
本プロジェクトはApache-2.0ライセンスを採用しています。 ありがとうございます kalomazeとDampfがimatrix較正データセットを作成するのに役立つことに感謝します。 埋め込み/出力実験におけるZeroWwのインスピレーションに感謝します。 LM Studioの本プロジェクトへの協賛に感謝します。 私の仕事をサポートしたい場合は、私のko-fiページにアクセスしてください:https://ko-fi.com/bartowski



