🚀 信じられないほどの超高品質リマスター:Psyonic - Cetacean - 20b
このモデルは、すべてのコンポーネントとマージが浮動小数点32ビットにリマスターされた、浮動小数点32ビットアップスケール版です。これには、すべてのマージ(マスターファイルで再作成)が含まれ、可能な場合は完全なFP32モデルが使用されます。

目標
「GUFF化」されるまでの最大精度を維持することです。これには、GGUF用のF32マスターファイルも含まれ、そのサイズは驚くほど78GBに達します。(20Bモデルの平均サイズは38GBです)
なぜですか?
F32とBF16の違いは、小数点以下8桁以上に及びます。各マージやモデルの変更に伴い、途中で「損失」が発生します。これらの損失は累積され、さらに多くの損失につながります。そして、小数点はモデルの性能にとって重要です。
小さな損失ですか?
はい... しかし、各マージや圧縮が200億回繰り返されると、その影響は大きくなります。
結果
- Q2K:パープレキシティが533ポイントも低下しました。(数値が低いほど良い)(元のQ2Kベースモデル:PPL = 9.8077 +/- 0.06821)
- Q4KM:パープレキシティが976ポイントも低下しました。(元のQ4kmベースモデル:PPL = 8.7858 +/- 0.06074)
- Q6:パープレキシティが234ポイント低下しました。(元のQ6ベースモデル:PPL = 8.6070 +/- 0.05907)
これを換言すると、「Q6」は現在、「Psyonic - Cetacean - 20b」の元の全精度バージョンを上回る性能を発揮し、Q4KMはQ6レベルの品質に近い性能を発揮します。これは、「Q6」の量子化/圧縮モデルが、全精度の非圧縮/非量子化モデルの「+0.0008 ppl」以内の精度と見なされ、この閾値を200ポイント以上上回っているためです。
Q8はどうですか?
パープレキシティが150ポイント改善されました。(PPL = 8.5850 +/- 0.05881 対 元のベースモデル:PPL = 8.6012 +/- 0.05900)
結果まとめ
モデルの元の作成者であるJeb Carterによると:
- 命令の追従性が劇的に向上しました。
- 新しい機能が出現しました。
- モデルがもはやそれほど具体的な命令を必要としなくなったため、使用する命令セットを減らさなければなりませんでした。
- 文章の質、ニュアンス、深みがすべて向上しました。
- 元のモデルに存在していた既知の問題が解消されました。
これは「無料で得られるもの」ではなく、モデルを「gguf化」する直前の各ステップで最大精度を確保する方法です。採用された方法は、精度の損失を最小限に抑えるか、または排除することを目的としています。これは数学的かつ理論的に健全です。
まとめ
- より高品質な命令追従と出力が得られます。
- 同じく、より小さな圧縮率で、より高いトークン/秒の速度で、依然として素晴らしい品質を得ることができます。同じ素晴らしいモデルが、パワーアップされたものです。
これは最初のリマスターグループです。
設定:チャット/ロールプレイおよび/またはモデルのスムーズな動作
「KoboldCpp」、「oobabooga/text - generation - webui」、または「Silly Tavern」では、「Smoothing_factor」を1.5から2.5に設定してください。
- KoboldCpp:設定 -> サンプラー -> 詳細 -> "Smooth_F"
- text - generation - webui:パラメータ -> 右下
- Silly Tavern:これは「Smoothing」と呼ばれます
注意事項
「text - generation - webui」でGGUFを使用する場合は、「llama_HF」を使用する必要があります(これには、このモデルのソースバージョンからいくつかの設定ファイルをダウンロードする必要があります)。
私のモデルのソースバージョン(および設定ファイル)はこちらにあります:
[https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)
その他のオプション
- 繰り返しペナルティを1.1から1.15に増やす(「smoothing_factor」を使用する場合はこれを行う必要はありません)
- AIモデルを実行するために使用しているインターフェース/プログラムが「Quadratic Sampling」(「smoothing」)をサポートしている場合は、上記のように調整してください。
最高品質の設定/最適な動作ガイド/パラメータとサンプラー
これは「クラス2」のモデルです。このモデルに使用されるすべての設定(その「クラス」に関する詳細を含む)、例生成、および高度な設定ガイド(多くの場合、モデルの問題を解決します)、すべてのユースケース(チャット、ロールプレイなど)におけるモデルのパフォーマンスを向上させる方法については、以下を参照してください。
[https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)
四騎士
このリポジトリに続いて、浮動小数点32ビット精度でGGUF(すべてのレベル)に追加のコンポーネントを追加した「reg quant plus」リポジトリが公開されます。このプロセスにより、パープレキシティがさらに50 - 100ポイント低下します。
このグループに続いて、完全な浮動小数点32ビット精度のImatrix(通常の量子化も含む「imatrixed」)が公開されます。元のモデルおよび「ultra」通常量子化とのテスト結果は、得られ次第公開されます。
Imatrix Plusリポジトリ(「reg quant plus」と同じ浮動小数点32ビットの強化が施されています)は、さらに限界を押し広げます。
Imatrixリポジトリはこちらにあります:[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)
この高精度リマスターを実現するために採用されたすべての方法(および避けるべき落とし穴)の詳細は、元のモデルと新しい超高品質リマスターの比較とともに、近日公開されます。
モデル「Psyonic - Cetacean 20B」の元の作成者であるJeb Carterに再び感謝します。
[https://huggingface.co/jebcarter/psyonic - cetacean - 20B](https://huggingface.co/jebcarter/psyonic - cetacean - 20B)
📄 ライセンス
Apache - 2.0