模型概述
模型特點
模型能力
使用案例
🚀 RWKV7-Goose-World3-2.9B-HF GGUF模型
本項目提供了RWKV7-Goose-World3-2.9B-HF的GGUF模型,可根據不同的硬件條件和使用場景選擇合適的模型格式,同時還提供了基於這些模型的AI網絡監控測試功能。
🚀 快速開始
選擇合適的模型格式
選擇正確的模型格式取決於你的硬件能力和內存限制。
BF16(腦浮點16) – 若有BF16加速功能則使用
- 一種16位浮點格式,專為更快的計算而設計,同時保持良好的精度。
- 提供與FP32 相似的動態範圍,但內存使用更低。
- 如果你的硬件支持BF16加速(請查看設備規格),則推薦使用。
- 與FP32相比,適用於高性能推理,且內存佔用減少。
📌 使用BF16的情況: ✔ 你的硬件具有原生BF16支持(例如,較新的GPU、TPU)。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為其他格式。
📌 避免使用BF16的情況: ❌ 你的硬件不支持BF16(可能會回退到FP32並運行較慢)。 ❌ 你需要與缺乏BF16優化的舊設備兼容。
F16(浮點16) – 比BF16更廣泛支持
- 一種16位浮點格式,精度較高,但取值範圍比BF16小。
- 適用於大多數支持FP16加速的設備(包括許多GPU和一些CPU)。
- 數值精度略低於BF16,但通常足以用於推理。
📌 使用F16的情況: ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算進行優化的設備上運行。
📌 避免使用F16的情況: ❌ 你的設備缺乏原生FP16支持(可能運行比預期慢)。 ❌ 你有內存限制。
量化模型(Q4_K、Q6_K、Q8等) – 用於CPU和低顯存推理
量化可在儘可能保持準確性的同時減小模型大小和內存使用。
- 低比特模型(Q4_K) → 內存使用最少,但精度可能較低。
- 高比特模型(Q6_K、Q8_0) → 準確性更好,但需要更多內存。
📌 使用量化模型的情況: ✔ 你在CPU上運行推理,並且需要優化的模型。 ✔ 你的設備顯存較低,無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。
📌 避免使用量化模型的情況: ❌ 你需要最高的準確性(全精度模型更適合這種情況)。 ❌ 你的硬件有足夠的顯存用於更高精度的格式(BF16/F16)。
極低比特量化(IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0)
這些模型針對極致的內存效率進行了優化,非常適合低功耗設備或大規模部署,其中內存是關鍵限制因素。
-
IQ3_XS:超低比特量化(3位),具有極致的內存效率。
- 使用場景:最適合超低內存設備,即使Q4_K也太大的情況。
- 權衡:與高比特量化相比,準確性較低。
-
IQ3_S:小塊大小,以實現最大內存效率。
- 使用場景:最適合低內存設備,當IQ3_XS過於激進時。
-
IQ3_M:中等塊大小,比IQ3_S具有更好的準確性。
- 使用場景:適用於低內存設備,當IQ3_S限制過多時。
-
Q4_K:4位量化,具有逐塊優化以提高準確性。
- 使用場景:最適合低內存設備,當Q6_K太大時。
-
Q4_0:純4位量化,針對ARM設備進行了優化。
- 使用場景:最適合基於ARM的設備或低內存環境。
總結表格:模型格式選擇
模型格式 | 精度 | 內存使用 | 設備要求 | 最佳用例 |
---|---|---|---|---|
BF16 | 最高 | 高 | 支持BF16的GPU/CPU | 減少內存的高速推理 |
F16 | 高 | 高 | 支持FP16的設備 | BF16不可用時的GPU推理 |
Q4_K | 中低 | 低 | CPU或低顯存設備 | 內存受限環境的最佳選擇 |
Q6_K | 中等 | 適中 | 內存較多的CPU | 量化模型中準確性較好的選擇 |
Q8_0 | 高 | 適中 | 有足夠顯存的CPU或GPU | 量化模型中最佳準確性 |
IQ3_XS | 非常低 | 非常低 | 超低內存設備 | 極致內存效率和低準確性 |
Q4_0 | 低 | 低 | ARM或低內存設備 | llama.cpp可針對ARM設備進行優化 |
包含的文件及詳情
RWKV7-Goose-World3-2.9B-HF-bf16.gguf
- 模型權重以BF16保存。
- 如果你想將模型重新量化為不同的格式,請使用此文件。
- 如果你的設備支持BF16加速,則為最佳選擇。
RWKV7-Goose-World3-2.9B-HF-f16.gguf
- 模型權重以F16存儲。
- 如果你的設備支持FP16,特別是在BF16不可用時使用。
RWKV7-Goose-World3-2.9B-HF-bf16-q8_0.gguf
- 輸出和嵌入保持為BF16。
- 所有其他層量化為Q8_0。
- 如果你的設備支持BF16,並且你想要一個量化版本,請使用此文件。
RWKV7-Goose-World3-2.9B-HF-f16-q8_0.gguf
- 輸出和嵌入保持為F16。
- 所有其他層量化為Q8_0。
RWKV7-Goose-World3-2.9B-HF-q4_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q4_K。
- 適用於內存有限的CPU推理。
RWKV7-Goose-World3-2.9B-HF-q4_k_s.gguf
- 最小的Q4_K變體,以犧牲準確性為代價減少內存使用。
- 最適合極低內存設置。
RWKV7-Goose-World3-2.9B-HF-q6_k.gguf
- 輸出和嵌入量化為Q8_0。
- 所有其他層量化為Q6_K。
RWKV7-Goose-World3-2.9B-HF-q8_0.gguf
- 完全Q8量化的模型,以提高準確性。
- 需要更多內存,但提供更高的精度。
RWKV7-Goose-World3-2.9B-HF-iq3_xs.gguf
- IQ3_XS量化,針對極致內存效率進行了優化。
- 最適合超低內存設備。
RWKV7-Goose-World3-2.9B-HF-iq3_m.gguf
- IQ3_M量化,提供中等塊大小以提高準確性。
- 適用於低內存設備。
RWKV7-Goose-World3-2.9B-HF-q4_0.gguf
- 純Q4_0量化,針對ARM設備進行了優化。
- 最適合低內存環境。
- 為了更好的準確性,建議使用IQ4_NL。
💻 使用示例
基礎用法
在使用此模型之前,請安裝flash-linear-attention
和最新版本的transformers
:
pip install git+https://github.com/fla-org/flash-linear-attention
pip install 'transformers>=4.48.0'
你可以像使用其他HuggingFace模型一樣使用此模型:
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
model = model.cuda()
prompt = "What is a large language model?"
messages = [
{"role": "user", "content": "Who are you?"},
{"role": "assistant", "content": "I am a GPT-3 based model."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=1024,
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
print(response)
高級用法
測試AI網絡監控功能
如果你覺得這些模型有用,請點擊“點贊”!同時,幫助測試AI網絡監控助手的量子就緒安全檢查: 👉 免費網絡監控
如何測試:
- 點擊聊天圖標(任何頁面的右下角)
- 選擇一個AI助手類型:
TurboLLM
(GPT-4-mini)FreeLLM
(開源)TestLLM
(僅支持CPU的實驗性模型)
正在測試的內容
正在突破小型開源模型用於AI網絡監控的極限,具體包括:
- 針對即時網絡服務的函數調用
- 模型可以多小,同時仍能處理:
- 自動化Nmap掃描
- 量子就緒檢查
- Metasploit集成
TestLLM – 當前實驗性模型(llama.cpp在6個CPU線程上):
- ✅ 零配置設置
- ⏳ 30秒加載時間(推理速度慢,但無API成本)
- 🔧 尋求幫助! 如果你對邊緣設備AI感興趣,讓我們合作!
其他助手
🟢 TurboLLM – 使用gpt-4-mini進行:
- 即時網絡診斷
- 自動化滲透測試(Nmap/Metasploit)
- 🔑 通過下載免費網絡監控代理獲取更多令牌
🔵 HugLLM – 開源模型(約80億參數):
- 比TurboLLM多2倍的令牌
- AI驅動的日誌分析
- 🌐 在Hugging Face推理API上運行
示例AI命令測試:
"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a quick Nmap vulnerability test"
📚 詳細文檔
模型詳情
模型描述
- 開發者:Bo Peng, Yu Zhang, Songlin Yang, Ruichong Zhang
- 資助方:RWKV項目(隸屬於LF AI & Data基金會)
- 模型類型:RWKV7
- 語言(NLP):英語
- 許可證:Apache-2.0
- 參數數量:29億
- 分詞器:RWKV World分詞器
- 詞彙量:65,536
模型來源
- 倉庫:https://github.com/fla-org/flash-linear-attention ; https://github.com/BlinkDL/RWKV-LM
- 論文:正在進行中
訓練數據
該模型在World v3上進行訓練,總共有3.119萬億個令牌。
訓練超參數
- 訓練機制:bfloat16,學習率從4e-4到1e-5的“延遲”餘弦衰減,權重衰減0.1(中間增加批量大小)
- 最終損失:1.8745
- 令牌數量:3.119萬億
🔧 技術細節
本模型是基於flash-linear attention格式的RWKV-7模型。在訓練過程中,採用了特定的訓練機制和超參數,以達到較好的性能。同時,針對不同的硬件和內存條件,提供了多種量化格式的模型,以滿足不同的使用場景。
📄 許可證
本項目採用Apache-2.0許可證。
FAQ
Q: safetensors元數據為空。
A: 將transformers升級到 >=4.48.0:pip install 'transformers>=4.48.0'



