RWKV7-Goose-World3-2.9B-HF-GGUF開源模型 - 支持多語言文本生成任務

首頁

RWKV7 Goose World3 2.9B HF GGUF

由Mungert開發

基於flash-linear attention格式的RWKV-7模型，支持多語言文本生成任務。

大型語言模型支持多種語言開源協議:Apache-2.0 #多語言文本生成 #低內存優化 #BF16加速

下載量 14.51k

發布時間 : 3/21/2025

模型概述

這是一個29億參數的RWKV-7模型，採用flash-linear attention架構，支持包括英語、中文、日語、韓語、法語、阿拉伯語、西班牙語和葡萄牙語在內的多種語言。

模型特點

多語言支持

支持8種語言的文本生成，包括英語、中文等主要語言。

高效架構

採用flash-linear attention架構，提高計算效率。

多種量化選項

提供從BF16到極低比特量化的多種模型格式，適應不同硬件需求。

模型能力

多語言文本生成

對話系統

內容創作

使用案例

對話系統

多語言聊天機器人

構建支持多種語言的智能對話系統

內容創作

多語言內容生成

自動生成多種語言的營銷文案或文章

🚀 RWKV7-Goose-World3-2.9B-HF GGUF模型

本項目提供了RWKV7-Goose-World3-2.9B-HF的GGUF模型，可根據不同的硬件條件和使用場景選擇合適的模型格式，同時還提供了基於這些模型的AI網絡監控測試功能。

🚀 快速開始

選擇合適的模型格式

選擇正確的模型格式取決於你的硬件能力和內存限制。

BF16（腦浮點16） – 若有BF16加速功能則使用

一種16位浮點格式，專為更快的計算而設計，同時保持良好的精度。
提供與FP32 相似的動態範圍，但內存使用更低。
如果你的硬件支持BF16加速（請查看設備規格），則推薦使用。
與FP32相比，適用於高性能推理，且內存佔用減少。

📌 使用BF16的情況： ✔ 你的硬件具有原生BF16支持（例如，較新的GPU、TPU）。 ✔ 你希望在節省內存的同時獲得更高的精度。 ✔ 你計劃將模型重新量化為其他格式。

📌 避免使用BF16的情況： ❌ 你的硬件不支持BF16（可能會回退到FP32並運行較慢）。 ❌ 你需要與缺乏BF16優化的舊設備兼容。

F16（浮點16） – 比BF16更廣泛支持

一種16位浮點格式，精度較高，但取值範圍比BF16小。
適用於大多數支持FP16加速的設備（包括許多GPU和一些CPU）。
數值精度略低於BF16，但通常足以用於推理。

📌 使用F16的情況： ✔ 你的硬件支持FP16但不支持BF16。 ✔ 你需要在速度、內存使用和準確性之間取得平衡。 ✔ 你在GPU或其他針對FP16計算進行優化的設備上運行。

📌 避免使用F16的情況： ❌ 你的設備缺乏原生FP16支持（可能運行比預期慢）。 ❌ 你有內存限制。

量化模型（Q4_K、Q6_K、Q8等） – 用於CPU和低顯存推理

量化可在儘可能保持準確性的同時減小模型大小和內存使用。

低比特模型（Q4_K） → 內存使用最少，但精度可能較低。
高比特模型（Q6_K、Q8_0） → 準確性更好，但需要更多內存。

📌 使用量化模型的情況： ✔ 你在CPU上運行推理，並且需要優化的模型。 ✔ 你的設備顯存較低，無法加載全精度模型。 ✔ 你希望在保持合理準確性的同時減少內存佔用。

📌 避免使用量化模型的情況： ❌ 你需要最高的準確性（全精度模型更適合這種情況）。 ❌ 你的硬件有足夠的顯存用於更高精度的格式（BF16/F16）。

極低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

這些模型針對極致的內存效率進行了優化，非常適合低功耗設備或大規模部署，其中內存是關鍵限制因素。

IQ3_XS：超低比特量化（3位），具有極致的內存效率。
- 使用場景：最適合超低內存設備，即使Q4_K也太大的情況。
- 權衡：與高比特量化相比，準確性較低。
IQ3_S：小塊大小，以實現最大內存效率。
- 使用場景：最適合低內存設備，當IQ3_XS過於激進時。
IQ3_M：中等塊大小，比IQ3_S具有更好的準確性。
- 使用場景：適用於低內存設備，當IQ3_S限制過多時。
Q4_K：4位量化，具有逐塊優化以提高準確性。
- 使用場景：最適合低內存設備，當Q6_K太大時。
Q4_0：純4位量化，針對ARM設備進行了優化。
- 使用場景：最適合基於ARM的設備或低內存環境。

總結表格：模型格式選擇

模型格式	精度	內存使用	設備要求	最佳用例
BF16	最高	高	支持BF16的GPU/CPU	減少內存的高速推理
F16	高	高	支持FP16的設備	BF16不可用時的GPU推理
Q4_K	中低	低	CPU或低顯存設備	內存受限環境的最佳選擇
Q6_K	中等	適中	內存較多的CPU	量化模型中準確性較好的選擇
Q8_0	高	適中	有足夠顯存的CPU或GPU	量化模型中最佳準確性
IQ3_XS	非常低	非常低	超低內存設備	極致內存效率和低準確性
Q4_0	低	低	ARM或低內存設備	llama.cpp可針對ARM設備進行優化

包含的文件及詳情

`RWKV7-Goose-World3-2.9B-HF-bf16.gguf`

模型權重以BF16保存。
如果你想將模型重新量化為不同的格式，請使用此文件。
如果你的設備支持BF16加速，則為最佳選擇。

`RWKV7-Goose-World3-2.9B-HF-f16.gguf`

模型權重以F16存儲。
如果你的設備支持FP16，特別是在BF16不可用時使用。

`RWKV7-Goose-World3-2.9B-HF-bf16-q8_0.gguf`

輸出和嵌入保持為BF16。
所有其他層量化為Q8_0。
如果你的設備支持BF16，並且你想要一個量化版本，請使用此文件。

`RWKV7-Goose-World3-2.9B-HF-f16-q8_0.gguf`

輸出和嵌入保持為F16。
所有其他層量化為Q8_0。

`RWKV7-Goose-World3-2.9B-HF-q4_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q4_K。
適用於內存有限的CPU推理。

`RWKV7-Goose-World3-2.9B-HF-q4_k_s.gguf`

最小的Q4_K變體，以犧牲準確性為代價減少內存使用。
最適合極低內存設置。

`RWKV7-Goose-World3-2.9B-HF-q6_k.gguf`

輸出和嵌入量化為Q8_0。
所有其他層量化為Q6_K。

`RWKV7-Goose-World3-2.9B-HF-q8_0.gguf`

完全Q8量化的模型，以提高準確性。
需要更多內存，但提供更高的精度。

`RWKV7-Goose-World3-2.9B-HF-iq3_xs.gguf`

IQ3_XS量化，針對極致內存效率進行了優化。
最適合超低內存設備。

`RWKV7-Goose-World3-2.9B-HF-iq3_m.gguf`

IQ3_M量化，提供中等塊大小以提高準確性。
適用於低內存設備。

`RWKV7-Goose-World3-2.9B-HF-q4_0.gguf`

純Q4_0量化，針對ARM設備進行了優化。
最適合低內存環境。
為了更好的準確性，建議使用IQ4_NL。

💻 使用示例

基礎用法

在使用此模型之前，請安裝flash-linear-attention和最新版本的transformers：

pip install git+https://github.com/fla-org/flash-linear-attention
pip install 'transformers>=4.48.0'

你可以像使用其他HuggingFace模型一樣使用此模型：

from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained('fla-hub/rwkv7-2.9B-world', trust_remote_code=True)
model = model.cuda()
prompt = "What is a large language model?"
messages = [
    {"role": "user", "content": "Who are you?"},
    {"role": "assistant", "content": "I am a GPT-3 based model."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)

model_inputs = tokenizer([text], return_tensors="pt").to(model.device)

generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=1024,
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=False)[0]
print(response)