license: apache-2.0
language:
- en
- zh
- ja
- ko
- fr
- ar
- es
- pt
metrics:
- accuracy
base_model:
- BlinkDL/rwkv-7-world
pipeline_tag: text-generation
RWKV7-Goose-World3-2.9B-HF GGUF モデル
適切なモデルフォーマットの選択
適切なモデルフォーマットを選択するには、ハードウェアの性能とメモリ制約を考慮する必要があります。
BF16 (Brain Float 16) – BF16 アクセラレーションが利用可能な場合に使用
- 高速な計算を可能にしつつ、良好な精度を維持する16ビット浮動小数点フォーマット。
- FP32と同様のダイナミックレンジを提供しつつ、メモリ使用量を削減。
- BF16 アクセラレーションをサポートするハードウェア(デバイスの仕様を確認)に推奨。
- FP32と比較してメモリフットプリントを削減しつつ、高性能な推論が可能。
📌 BF16を使用する場合:
✔ ハードウェアがBF16をネイティブサポート(例: 新しいGPU、TPU)。
✔ 高い精度を維持しつつメモリを節約したい。
✔ モデルを他のフォーマットに再量子化する予定がある。
📌 BF16を避ける場合:
❌ ハードウェアがBF16をサポートしていない(FP32にフォールバックし、遅くなる可能性あり)。
❌ BF16最適化がない古いデバイスとの互換性が必要。
F16 (Float 16) – BF16より広くサポート
- 16ビット浮動小数点で高精度だが、BF16より値の範囲が狭い。
- FP16 アクセラレーションをサポートする多くのデバイス(GPUや一部のCPU)で動作。
- BF16より若干精度が低いが、推論には一般的に十分。
📌 F16を使用する場合:
✔ ハードウェアがFP16をサポートしているが、BF16はサポートしていない。
✔ 速度、メモリ使用量、精度のバランスが必要。
✔ GPUなどFP16計算に最適化されたデバイスで実行する。
📌 F16を避ける場合:
❌ デバイスがネイティブFP16サポートを欠く(予想より遅くなる可能性あり)。
❌ メモリ制約が厳しい。
量子化モデル (Q4_K, Q6_K, Q8など) – CPU & 低VRAM推論用
量子化によりモデルサイズとメモリ使用量を削減しつつ、可能な限り精度を維持。
- 低ビットモデル (Q4_K) → メモリ使用量最小、精度は低め。
- 高ビットモデル (Q6_K, Q8_0) → 精度向上、より多くのメモリが必要。
📌 量子化モデルを使用する場合:
✔ CPUで推論を実行し、最適化されたモデルが必要。
✔ デバイスのVRAMが少なく、フル精度モデルをロードできない。
✔ メモリフットプリントを削減しつつ、合理的な精度を維持したい。
📌 量子化モデルを避ける場合:
❌ 最大精度が必要(フル精度モデルが適している)。
❌ ハードウェアに高精度フォーマット(BF16/F16)用の十分なVRAMがある。
超低ビット量子化 (IQ3_XS, IQ3_S, IQ3_M, Q4_K, Q4_0)
これらのモデルは極端なメモリ効率を最適化しており、低電力デバイスやメモリが重大な制約となる大規模展開に最適。
-
IQ3_XS: 超低ビット量子化(3ビット)で極端なメモリ効率。
- 使用例: 超低メモリデバイス向け(Q4_Kでも大きすぎる場合)。
- トレードオフ: 高ビット量子化より精度が低い。
-
IQ3_S: 小ブロックサイズで最大メモリ効率。
- 使用例: IQ3_XSが過剰な低メモリデバイス向け。
-
IQ3_M: 中ブロックサイズでIQ3_Sより精度向上。
- 使用例: IQ3_Sが制限すぎる低メモリデバイス向け。
-
Q4_K: 4ビット量子化でブロック単位最適化により精度向上。
- 使用例: Q6_Kが大きすぎる低メモリデバイス向け。
-
Q4_0: 純粋な4ビット量子化、ARMデバイス向けに最適化。
- 使用例: ARMベースデバイスや低メモリ環境向け。
要約表: モデルフォーマット選択
モデルフォーマット |
精度 |
メモリ使用量 |
デバイス要件 |
最適な使用例 |
BF16 |
最高 |
高 |
BF16対応GPU/CPU |
メモリ削減した高速推論 |
F16 |
高 |
高 |
FP16対応デバイス |
BF16が利用不可なGPU推論 |
Q4_K |
中~低 |
低 |
CPU または 低VRAMデバイス |
メモリ制約が厳しい環境 |
Q6_K |
中 |
中 |
メモリ豊富なCPU |
量子化されつつ精度向上 |
Q8_0 |
高 |
中 |
VRAMが十分なCPU/GPU |
量子化モデル中最も高精度 |
IQ3_XS |
非常に低 |
非常に低 |
超低メモリデバイス |
極端なメモリ効率と低精度 |
Q4_0 |
低 |
低 |
ARM または 低メモリデバイス |
llama.cppがARMデバイス向けに最適化 |
含まれるファイルと詳細
RWKV7-Goose-World3-2.9B-HF-bf16.gguf
- モデル重みをBF16で保持。
- 別のフォーマットに再量子化する場合に使用。
- BF16 アクセラレーション対応デバイスに最適。
RWKV7-Goose-World3-2.9B-HF-f16.gguf
- モデル重みをF16で保持。
- FP16をサポートするがBF16が利用不可なデバイス向け。
RWKV7-Goose-World3-2.9B-HF-bf16-q8_0.gguf
- 出力 & 埋め込みはBF16のまま。
- 他の層はQ8_0に量子化。
- BF16対応デバイスで量子化版を使用したい場合。
RWKV7-Goose-World3-2.9B-HF-f16-q8_0.gguf
- 出力 & 埋め込みはF16のまま。
- 他の層はQ8_0に量子化。
RWKV7-Goose-World3-2.9B-HF-q4_k.gguf
- 出力 & 埋め込みはQ8_0に量子化。
- 他の層はQ4_Kに量子化。
- メモリ制約のあるCPU推論に適している。
RWKV7-Goose-World3-2.9B-HF-q4_k_s.gguf
- 最小のQ4_Kバリアント、精度を犠牲にメモリ使用量を削減。
- 極低メモリ環境に最適。
RWKV7-Goose-World3-2.9B-HF-q6_k.gguf
- 出力 & 埋め込みはQ8_0に量子化。
- 他の層はQ6_Kに量子化。
RWKV7-Goose-World3-2.9B-HF-q8_0.gguf
- 完全なQ8量子化モデルで高精度を実現。
- より多くのメモリが必要だが、高い精度を提供。
RWKV7-Goose-World3-2.9B-HF-iq3_xs.gguf
- IQ3_XS量子化、極端なメモリ効率を最適化。
- 超低メモリデバイスに最適。
RWKV7-Goose-World3-2.9B-HF-iq3_m.gguf
- IQ3_M量子化、中ブロックサイズで精度向上。
- 低メモリデバイスに適している。
RWKV7-Goose-World3-2.9B-HF-q4_0.gguf
- 純粋なQ4_0量子化、ARMデバイス向けに最適化。
- 低メモリ環境に最適。
- より高い精度が必要な場合はIQ4_NLを推奨。
🚀 これらのモデルが役立つ場合
❤ 役に立ったら「いいね」をクリックしてください!
量子対応セキュリティチェックを備えたAIネットワーク監視アシスタントのテストに協力ください:
👉 無料ネットワークモニター
💬 テスト方法:
- チャットアイコンをクリック(ページ右下)
- AIアシスタントタイプを選択:
TurboLLM
(GPT-4-mini)
FreeLLM
(オープンソース)
TestLLM
(実験的CPU専用)
テスト内容
小規模オープンソースモデルの限界に挑戦中:
- ライブネットワークサービスに対する関数呼び出し
- どの程度小さなモデルで以下を処理可能か:
- 自動化されたNmapスキャン
- 量子対応チェック
- Metasploit統合
🟡 TestLLM – 現在の実験モデル(llama.cpp、6 CPUスレッド):
- ✅ ゼロ設定
- ⏳ 30秒のロード時間(推論は遅いがAPIコスト無し)
- 🔧 協力募集! エッジデバイスAIに興味があれば協力しましょう!
その他のアシスタント
🟢 TurboLLM – gpt-4-miniを使用:
🔵 HugLLM – オープンソースモデル(≈8Bパラメータ):
- TurboLLMより2倍のトークン
- AI駆動ログ分析
- 🌐 Hugging Face推論APIで動作
💡 テスト用AIコマンド例:
"私のウェブサイトのSSL証明書情報を教えて"
"サーバーが量子安全暗号を使用しているか確認して"
"簡単なNmap脆弱性テストを実行して"