Psyonic-Cetacean-Ultra-Quality-20b-GGUFオープンソースモデル - アップグレード版でパフォーマンスが大幅に向上

Psyonic Cetacean Ultra Quality 20b GGUF

DavidAUによって開発

Psyonic-Cetacean-20Bを基にした32ビット浮動小数点精度の全面アップグレード版、精度損失を最小化することでモデル性能を大幅に向上

大規模言語モデル英語オープンソースライセンス:Apache-2.0 #FP32高精度生成 #量子化性能がオリジナルを超越 #クリエイティブライティング強化

ダウンロード数 560

リリース時間 : 5/28/2024

モデル概要

このモデルはオリジナルのPsyonic-Cetacean-20Bの高精度リマスター版で、FP32精度処理を全工程で採用することで量子化プロセスにおける精度損失を大幅に低減し、指示追従、テキスト生成品質、ディテール表現などにおいて画期的な向上を実現しました。

モデル特徴

全FP32精度処理

全てのコンポーネントと結合モデルを32ビット浮動小数点精度でリマスターし、量子化プロセスにおける精度損失を最小限に抑えました

パープレキシティの大幅低減

各量子化版でパープレキシティが234-976ポイント低下、Q6版はオリジナル全精度モデルを性能で凌駕

新たな能力の出現

指示追従能力が大幅に向上し、オリジナル版にはなかった新たな能力を発揮

マルチ量子化バージョン対応

Q2K/Q4KM/Q6/Q8など多様な量子化バージョンを提供し、異なるハードウェア条件での性能ニーズに対応

モデル能力

高品質テキスト生成

クリエイティブライティング

ストーリー創作

小説続き書き

ロールプレイ対話生成

複雑な指示追従

使用事例

クリエイティブライティング

SF小説創作

豊富なディテールと一貫した世界観を持つSFストーリーを生成

宇宙クジラなどのSF要素の深い描写能力が大幅に向上

インタラクティブアプリケーション

ロールプレイチャット

Silly Tavernなどのプラットフォームで高品質なロールプレイ対話を実現

会話の流暢さとキャラクター一貫性が明らかに改善

🚀 信じられないほどの超高品質リマスター：Psyonic - Cetacean - 20b

このモデルは、すべてのコンポーネントとマージが浮動小数点32ビットにリマスターされた、浮動小数点32ビットアップスケール版です。これには、すべてのマージ（マスターファイルで再作成）が含まれ、可能な場合は完全なFP32モデルが使用されます。

宇宙のクジラが考えている画像

目標

「GUFF化」されるまでの最大精度を維持することです。これには、GGUF用のF32マスターファイルも含まれ、そのサイズは驚くほど78GBに達します。（20Bモデルの平均サイズは38GBです）

なぜですか？

F32とBF16の違いは、小数点以下8桁以上に及びます。各マージやモデルの変更に伴い、途中で「損失」が発生します。これらの損失は累積され、さらに多くの損失につながります。そして、小数点はモデルの性能にとって重要です。

小さな損失ですか？

はい... しかし、各マージや圧縮が200億回繰り返されると、その影響は大きくなります。

結果

Q2K：パープレキシティが533ポイントも低下しました。（数値が低いほど良い）（元のQ2Kベースモデル：PPL = 9.8077 +/- 0.06821）
Q4KM：パープレキシティが976ポイントも低下しました。（元のQ4kmベースモデル：PPL = 8.7858 +/- 0.06074）
Q6：パープレキシティが234ポイント低下しました。（元のQ6ベースモデル：PPL = 8.6070 +/- 0.05907）

これを換言すると、「Q6」は現在、「Psyonic - Cetacean - 20b」の元の全精度バージョンを上回る性能を発揮し、Q4KMはQ6レベルの品質に近い性能を発揮します。これは、「Q6」の量子化/圧縮モデルが、全精度の非圧縮/非量子化モデルの「+0.0008 ppl」以内の精度と見なされ、この閾値を200ポイント以上上回っているためです。

Q8はどうですか？

パープレキシティが150ポイント改善されました。（PPL = 8.5850 +/- 0.05881 対元のベースモデル：PPL = 8.6012 +/- 0.05900）

結果まとめ

モデルの元の作成者であるJeb Carterによると：

命令の追従性が劇的に向上しました。
新しい機能が出現しました。
モデルがもはやそれほど具体的な命令を必要としなくなったため、使用する命令セットを減らさなければなりませんでした。
文章の質、ニュアンス、深みがすべて向上しました。
元のモデルに存在していた既知の問題が解消されました。

これは「無料で得られるもの」ではなく、モデルを「gguf化」する直前の各ステップで最大精度を確保する方法です。採用された方法は、精度の損失を最小限に抑えるか、または排除することを目的としています。これは数学的かつ理論的に健全です。

まとめ

より高品質な命令追従と出力が得られます。
同じく、より小さな圧縮率で、より高いトークン/秒の速度で、依然として素晴らしい品質を得ることができます。同じ素晴らしいモデルが、パワーアップされたものです。

これは最初のリマスターグループです。

設定：チャット/ロールプレイおよび/またはモデルのスムーズな動作

「KoboldCpp」、「oobabooga/text - generation - webui」、または「Silly Tavern」では、「Smoothing_factor」を1.5から2.5に設定してください。

KoboldCpp：設定 -> サンプラー -> 詳細 -> "Smooth_F"
text - generation - webui：パラメータ -> 右下
Silly Tavern：これは「Smoothing」と呼ばれます

注意事項

「text - generation - webui」でGGUFを使用する場合は、「llama_HF」を使用する必要があります（これには、このモデルのソースバージョンからいくつかの設定ファイルをダウンロードする必要があります）。

私のモデルのソースバージョン（および設定ファイル）はこちらにあります： [https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be](https://huggingface.co/collections/DavidAU/d - au - source - files - for - gguf - exl2 - awq - gptq - hqq - etc - etc - 66b55cb8ba25f914cbf210be)

その他のオプション

繰り返しペナルティを1.1から1.15に増やす（「smoothing_factor」を使用する場合はこれを行う必要はありません）
AIモデルを実行するために使用しているインターフェース/プログラムが「Quadratic Sampling」（「smoothing」）をサポートしている場合は、上記のように調整してください。

最高品質の設定/最適な動作ガイド/パラメータとサンプラー

これは「クラス2」のモデルです。このモデルに使用されるすべての設定（その「クラス」に関する詳細を含む）、例生成、および高度な設定ガイド（多くの場合、モデルの問題を解決します）、すべてのユースケース（チャット、ロールプレイなど）におけるモデルのパフォーマンスを向上させる方法については、以下を参照してください。 [https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters](https://huggingface.co/DavidAU/Maximizing - Model - Performance - All - Quants - Types - And - Full - Precision - by - Samplers_Parameters)

四騎士

このリポジトリに続いて、浮動小数点32ビット精度でGGUF（すべてのレベル）に追加のコンポーネントを追加した「reg quant plus」リポジトリが公開されます。このプロセスにより、パープレキシティがさらに50 - 100ポイント低下します。

このグループに続いて、完全な浮動小数点32ビット精度のImatrix（通常の量子化も含む「imatrixed」）が公開されます。元のモデルおよび「ultra」通常量子化とのテスト結果は、得られ次第公開されます。

Imatrix Plusリポジトリ（「reg quant plus」と同じ浮動小数点32ビットの強化が施されています）は、さらに限界を押し広げます。 Imatrixリポジトリはこちらにあります：[https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix](https://huggingface.co/DavidAU/Psyonic - Cetacean - Ultra - Quality - 20b - GGUF - imatrix)

この高精度リマスターを実現するために採用されたすべての方法（および避けるべき落とし穴）の詳細は、元のモデルと新しい超高品質リマスターの比較とともに、近日公開されます。

モデル「Psyonic - Cetacean 20B」の元の作成者であるJeb Carterに再び感謝します。 [https://huggingface.co/jebcarter/psyonic - cetacean - 20B](https://huggingface.co/jebcarter/psyonic - cetacean - 20B)