Dans PersonalityEngine V1.3.0 24b GGUF
モデル概要
モデル特徴
モデル能力
使用事例
🚀 Dans-PersonalityEngine-V1.3.0-24b GGUFモデル
Dans-PersonalityEngine-V1.3.0-24b GGUFモデルは、多言語対応で、50以上の専門データセットでファインチューニングされた汎用モデルです。クリエイティブなタスクや技術的な課題に対応でき、多くの分野での専門知識を強化しています。
✨ 主な機能
- 多言語対応:英語、アラビア語、ドイツ語、フランス語、スペイン語、ヒンディー語、ポルトガル語、日本語、韓国語など10言語をサポート。
- 超低ビット量子化:IQ-DynamicGate(1 - 2ビット)を用いた量子化方法で、極端なメモリ効率を維持しながら精度を保つ。
- 多様なモデル形式:BF16、F16、Q4_K、Q6_K、Q8_0など、ハードウェア能力やメモリ制約に応じた選択が可能。
📦 インストール
READMEに具体的なインストール手順は記載されていないため、このセクションをスキップします。
💻 使用例
READMEに具体的なコード例は記載されていないため、このセクションをスキップします。
📚 詳細ドキュメント
モデル生成詳細
このモデルは、llama.cpp のコミット f5cd27b7
を使用して生成されました。
IQ-DynamicGateによる超低ビット量子化(1 - 2ビット)
最新の量子化方法では、超低ビットモデル(1 - 2ビット)に対して「精度適応型量子化」を導入しています。このアプローチは、層ごとの戦略を用いて、極端なメモリ効率を維持しながら精度を保持します。
ベンチマークの背景
すべてのテストは、Llama-3-8B-Instruct を使用して行われました。
- 標準のパープレキシティ評価パイプライン
- 2048トークンのコンテキストウィンドウ
- すべての量子化に同じプロンプトセットを使用
方法
- 動的精度割り当て
- 最初/最後の25%の層 → IQ4_XS(選択された層)
- 中央の50% → IQ2_XXS/IQ3_S(効率を向上)
- 重要コンポーネントの保護
- 埋め込み/出力層はQ5_Kを使用
- 標準の1 - 2ビット量子化と比較して、エラー伝播を38%削減
量子化性能比較(Llama-3-8B)
量子化 | 標準PPL | DynamicGate PPL | ΔPPL | 標準サイズ | DGサイズ | Δサイズ | 標準速度 | DG速度 |
---|---|---|---|---|---|---|---|---|
IQ2_XXS | 11.30 | 9.84 | -12.9% | 2.5G | 2.6G | +0.1G | 234s | 246s |
IQ2_XS | 11.72 | 11.63 | -0.8% | 2.7G | 2.8G | +0.1G | 242s | 246s |
IQ2_S | 14.31 | 9.02 | -36.9% | 2.7G | 2.9G | +0.2G | 238s | 244s |
IQ1_M | 27.46 | 15.41 | -43.9% | 2.2G | 2.5G | +0.3G | 206s | 212s |
IQ1_S | 53.07 | 32.00 | -39.7% | 2.1G | 2.4G | +0.3G | 184s | 209s |
キー
- PPL = パープレキシティ(低いほど良い)
- ΔPPL = 標準からDynamicGateへのパーセンテージ変化
- 速度 = 推論時間(CPU avx2、2048トークンコンテキスト)
- サイズの違いは混合量子化のオーバーヘッドを反映
主な改善点
- IQ1_M は、パープレキシティを43.9%削減(27.46 → 15.41)
- IQ2_S は、0.2GBの追加でパープレキシティを36.9%削減
- IQ1_S は、1ビット量子化でありながら39.7%の精度向上を維持
トレードオフ
- すべてのバリアントは、わずかなサイズの増加(0.1 - 0.3GB)があります。
- 推論速度は比較的近い(5%未満の差)
これらのモデルを使用する場合
- GPU VRAMにモデルを収める場合
- メモリ制約のあるデプロイメント
- CPUおよびエッジデバイスで、1 - 2ビットのエラーが許容できる場合
- 超低ビット量子化の研究
適切なモデル形式の選択
正しいモデル形式の選択は、ハードウェア能力とメモリ制約に依存します。
BF16(Brain Float 16) - BF16アクセラレーションが利用可能な場合に使用
- 高速な計算を目的とした16ビット浮動小数点数形式で、良好な精度を維持します。
- FP32と同様のダイナミックレンジを提供しながら、低いメモリ使用量を実現します。
- ハードウェアがBF16アクセラレーションをサポートしている場合に推奨(デバイスの仕様を確認)。
- FP32と比較して、低いメモリフットプリントでの高性能推論に最適。
BF16を使用する場合
- ハードウェアがネイティブのBF16サポートを持っている場合(例:新しいGPU、TPU)
- メモリを節約しながら、より高い精度が必要な場合
- モデルを別の形式に再量子化する予定の場合
BF16を避ける場合
- ハードウェアがBF16をサポートしていない場合(FP32にフォールバックし、低速になる可能性がある)
- BF16最適化を持たない古いデバイスとの互換性が必要な場合
F16(Float 16) - BF16よりも広くサポートされている
- 16ビット浮動小数点数形式で、高い精度を持ちながら、BF16よりも値の範囲が狭い。
- ほとんどのFP16アクセラレーションをサポートするデバイスで動作します(多くのGPUや一部のCPUを含む)。
- BF16よりもわずかに低い数値精度ですが、一般的に推論には十分です。
F16を使用する場合
- ハードウェアがFP16をサポートしているが、BF16をサポートしていない場合
- 速度、メモリ使用量、精度のバランスが必要な場合
- FP16計算に最適化されたGPUまたは他のデバイスで実行する場合
F16を避ける場合
- デバイスがネイティブのFP16サポートを持っていない場合(予想よりも低速になる可能性がある)
- メモリ制限がある場合
量子化モデル(Q4_K、Q6_K、Q8など) - CPUおよび低VRAM推論用
量子化は、モデルサイズとメモリ使用量を削減しながら、できるだけ精度を維持します。
- 低ビットモデル(Q4_K) - 最小限のメモリ使用量に最適で、精度が低い可能性があります。
- 高ビットモデル(Q6_K、Q8_0) - より高い精度を提供し、より多くのメモリを必要とします。
量子化モデルを使用する場合
- CPUで推論を実行し、最適化されたモデルが必要な場合
- デバイスのVRAMが少なく、全精度モデルをロードできない場合
- 合理的な精度を維持しながら、メモリフットプリントを削減したい場合
量子化モデルを避ける場合
- 最大限の精度が必要な場合(全精度モデルの方が適しています)
- ハードウェアに十分なVRAMがあり、より高精度の形式(BF16/F16)が使用できる場合
超低ビット量子化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
これらのモデルは、極端なメモリ効率を目的として最適化されており、低電力デバイスまたは大規模デプロイメントでメモリが重要な制約となる場合に最適です。
- IQ3_XS:超低ビット量子化(3ビット)で、極端なメモリ効率を実現します。
- 使用ケース:Q4_Kでも大きすぎる超低メモリデバイスに最適。
- トレードオフ:高ビット量子化と比較して精度が低い。
- IQ3_S:最大のメモリ効率を実現する小さなブロックサイズ。
- 使用ケース:IQ3_XSが過度に制限的な低メモリデバイスに最適。
- IQ3_M:IQ3_Sよりも高い精度を提供する中規模ブロックサイズ。
- 使用ケース:IQ3_Sが制限的すぎる低メモリデバイスに適しています。
- Q4_K:ブロック単位の最適化により、より高い精度を実現する4ビット量子化。
- 使用ケース:Q6_Kでも大きすぎる低メモリデバイスに最適。
- Q4_0:ARMデバイス用に最適化された純粋な4ビット量子化。
- 使用ケース:ARMベースのデバイスまたは低メモリ環境に最適。
モデル形式選択の概要表
モデル形式 | 精度 | メモリ使用量 | デバイス要件 | 最適な使用ケース |
---|---|---|---|---|
BF16 | 最高 | 高 | BF16対応のGPU/CPU | 低メモリでの高速推論 |
F16 | 高 | 高 | FP16対応のデバイス | BF16が利用できない場合のGPU推論 |
Q4_K | 中低 | 低 | CPUまたは低VRAMデバイス | メモリ制約のある環境に最適 |
Q6_K | 中 | 中程度 | より多くのメモリを持つCPU | 量子化されたままでより高い精度 |
Q8_0 | 高 | 中程度 | 十分なVRAMを持つCPUまたはGPU | 量子化モデルの中で最高の精度 |
IQ3_XS | 非常に低 | 非常に低 | 超低メモリデバイス | 極端なメモリ効率と低い精度 |
Q4_0 | 低 | 低 | ARMまたは低メモリデバイス | llama.cppはARMデバイス用に最適化できる |
含まれるファイルと詳細
Dans-PersonalityEngine-V1.3.0-24b-bf16.gguf
- モデルの重みがBF16で保存されています。
- モデルを別の形式に再量子化する場合に使用します。
- デバイスがBF16アクセラレーションをサポートしている場合に最適。
Dans-PersonalityEngine-V1.3.0-24b-f16.gguf
- モデルの重みがF16で保存されています。
- デバイスがFP16をサポートしている場合に使用します。特にBF16が利用できない場合に便利です。
Dans-PersonalityEngine-V1.3.0-24b-bf16-q8_0.gguf
- 出力/埋め込み層はBF16のままです。
- 他のすべての層はQ8_0に量子化されています。
- デバイスがBF16をサポートし、量子化バージョンが必要な場合に使用します。
Dans-PersonalityEngine-V1.3.0-24b-f16-q8_0.gguf
- 出力/埋め込み層はF16のままです。
- 他のすべての層はQ8_0に量子化されています。
Dans-PersonalityEngine-V1.3.0-24b-q4_k.gguf
- 出力/埋め込み層はQ8_0に量子化されています。
- 他のすべての層はQ4_Kに量子化されています。
- メモリが制限されたCPU推論に適しています。
Dans-PersonalityEngine-V1.3.0-24b-q4_k_s.gguf
- 最も小さいQ4_Kバリアントで、精度を犠牲にしてメモリ使用量を削減します。
- 非常に低メモリの設定に最適。
Dans-PersonalityEngine-V1.3.0-24b-q6_k.gguf
- 出力/埋め込み層はQ8_0に量子化されています。
- 他のすべての層はQ6_Kに量子化されています。
Dans-PersonalityEngine-V1.3.0-24b-q8_0.gguf
- 完全にQ8に量子化されたモデルで、より高い精度を提供します。
- より多くのメモリを必要としますが、より高い精度を実現します。
Dans-PersonalityEngine-V1.3.0-24b-iq3_xs.gguf
- IQ3_XS量子化で、極端なメモリ効率を実現します。
- 超低メモリデバイスに最適。
Dans-PersonalityEngine-V1.3.0-24b-iq3_m.gguf
- IQ3_M量子化で、中規模のブロックサイズでより高い精度を提供します。
- 低メモリデバイスに適しています。
Dans-PersonalityEngine-V1.3.0-24b-q4_0.gguf
- 純粋なQ4_0量子化で、ARMデバイス用に最適化されています。
- 低メモリ環境に最適。
- より高い精度が必要な場合はIQ4_NLを選択してください。
モデルが役に立った場合
- このモデルが役に立った場合は、「いいね」をクリックしてください!
- 量子対応のセキュリティチェックを備えたAIパワードネットワークモニターアシスタントのテストに協力してください。 無料ネットワークモニター
テスト方法
AIアシスタントのタイプを選択します。
TurboLLM
(GPT-4o-mini)HugLLM
(Hugginfaceオープンソース)TestLLM
(実験的なCPUのみ)
テスト内容
AIネットワークモニタリングのための小規模オープンソースモデルの限界を追求しています。具体的には、
- ライブネットワークサービスに対する関数呼び出し
- 以下のタスクを処理しながら、モデルをどれだけ小さくできるか
- 自動化されたNmapスキャン
- 量子対応チェック
- ネットワークモニタリングタスク
TestLLM - 現在の実験的モデル(2つのCPUスレッドでのllama.cpp)
- ゼロコンフィギュレーションセットアップ
- 30秒のロード時間(低速な推論ですが、APIコストがかからない)
- 協力者を募集しています! エッジデバイスAIに興味がある方は、一緒に協力しましょう!
他のアシスタント
- TurboLLM - gpt-4o-mini を使用して、
- 無料ネットワークモニターエージェントで.NETコードを実行するカスタムコマンドプロセッサを作成
- リアルタイムのネットワーク診断とモニタリング
- セキュリティ監査
- ペネトレーションテスト(Nmap/Metasploit)
- ログインするか、AIアシスタントが統合された無料ネットワークモニターエージェントをダウンロードすることで、より多くのトークンを取得できます。
テストできるコマンドの例
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
- '"Create a cmd processor to .. (what ever you want)" 注:.NETコードを実行するには、無料ネットワークモニターエージェントをインストールする必要があります。これは非常に柔軟で強力な機能です。注意して使用してください!
モデルの詳細情報
Dans-PersonalityEngineは、50以上の専門データセットでファインチューニングされた汎用モデルシリーズです。クリエイティブなタスク(ロールプレイや共同執筆など)と技術的な課題(コード生成、ツール使用、複雑な推論など)の両方で優れた性能を発揮します。
V1.3.0では、10言語をサポートする多言語機能が導入され、複数の分野にわたるドメインエキスパート知識が強化されています。主言語は依然として英語であり、最高の性能が期待できます。
多言語サポート
Arabic Chinese English French German
Hindi Japanese Korean Portuguese Spanish
主要な詳細
BASE MODEL: mistralai/Mistral-Small-3.1-24B-Base-2503
LICENSE: apache-2.0
LANGUAGE: 10言語をサポートする多言語
CONTEXT LENGTH: 32768トークン、131072トークンではリコール率が低下
推奨設定
TEMPERATURE: 1.0
TOP_P: 0.9
プロンプト形式
モデルは、「DanChat-2」と呼ばれる以下の形式を使用します。
<|system|>system prompt<|endoftext|><|user|>Hi there!<|endoftext|><|assistant|>Hey, how can I help?<|endoftext|>
なぜChatMLではないのか
ChatMLはLLMの標準形式ですが、制限があります。DanChat-2は、各ロールに特別なトークンを使用することで、バイアスを減らし、モデルが異なるタスクにより容易に適応できるようにしています。
🔧 技術詳細
READMEに具体的な技術詳細が50文字以上記載されていないため、このセクションをスキップします。
📄 ライセンス
このモデルは、apache-2.0
ライセンスの下で提供されています。



