FairyR1-32B-GGUF开源大语言模型 - 实现高性能低成本推理应用

首页

Fairyr1 32B GGUF

由 Mungert 开发

FairyR1-32B是由北大DS-LAB开发的高效大语言模型，基于DeepSeek-R1-Distill-Qwen-32B，通过'蒸馏-融合'创新流程实现高性能与低成本推理的平衡。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #数学编程双优 #蒸馏融合架构 #低参高效推理

下载量 867

发布时间 : 5/25/2025

模型简介

FairyR1-32B是一个32B参数的文本生成模型，专注于数学和编程任务，在特定任务上以约5%参数量达到或超越大模型表现。

模型特点

IQ-DynamicGate超低位量化

采用精度自适应量化技术，专为超低位模型（1-2比特）设计，在保持极致内存效率的同时保障精度。

蒸馏-融合创新流程

通过任务精调与模型融合技术实现高性能与低成本推理的平衡。

数学与编程优化

特别优化数学和编程领域的表现，在AIME和LiveCodeBench等评测中表现优异。

模型能力

文本生成

数学问题解答

编程任务处理

科学QA

使用案例

教育

数学问题解答

解答AIME等数学竞赛题目

在AIME 2024和2025评测中表现优异

编程

代码生成与理解

处理编程相关任务

在LiveCodeBench评测中表现优异

网络监控

AI网络监控助手

用于网络监控任务执行和量子安全检测

🚀 FairyR1-32B GGUF模型

FairyR1-32B是一款高效的大语言模型，基于DeepSeek-R1-Distill-Qwen-32B基础模型构建。它采用了创新的“蒸馏与融合”管道，结合任务聚焦微调与模型融合技术，在大幅减少参数和推理成本的情况下，仍能在特定任务上达到或超越更大模型的性能。

🚀 快速开始

模型生成详情

本模型使用 llama.cpp 在提交版本 f5cd27b7 时生成。

超低比特量化与IQ-DynamicGate（1 - 2比特）

我们最新的量化方法为超低比特模型（1 - 2比特）引入了精度自适应量化，经基准测试证明，在 Llama-3-8B 上有显著改进。这种方法采用特定层策略，在保持极高内存效率的同时保留准确性。

基准测试环境

所有测试均在 Llama-3-8B-Instruct 上进行，使用：

标准困惑度评估管道
2048 令牌上下文窗口
所有量化使用相同的提示集

方法

动态精度分配：
- 前/后 25% 的层 → IQ4_XS（选定层）
- 中间 50% → IQ2_XXS/IQ3_S（提高效率）
关键组件保护：
- 嵌入层/输出层使用 Q5_K
- 与标准 1 - 2 比特量化相比，误差传播减少 38%

量化性能比较（Llama-3-8B）

量化方式	标准困惑度	DynamicGate困惑度	困惑度变化	标准大小	DG大小	大小变化	标准速度	DG速度
IQ2_XXS	11.30	9.84	-12.9%	2.5G	2.6G	+0.1G	234s	246s
IQ2_XS	11.72	11.63	-0.8%	2.7G	2.8G	+0.1G	242s	246s
IQ2_S	14.31	9.02	-36.9%	2.7G	2.9G	+0.2G	238s	244s
IQ1_M	27.46	15.41	-43.9%	2.2G	2.5G	+0.3G	206s	212s
IQ1_S	53.07	32.00	-39.7%	2.1G	2.4G	+0.3G	184s	209s

关键说明：

PPL = 困惑度（越低越好）
∆PPL = 从标准到DynamicGate的百分比变化
速度 = 推理时间（CPU avx2，2048 令牌上下文）
大小差异反映混合量化开销

主要改进：

IQ1_M 困惑度大幅降低 43.9%（从 27.46 降至 15.41）
IQ2_S 困惑度降低 36.9%，仅增加 0.2GB
IQ1_S 尽管是 1 比特量化，但仍保持 39.7% 的更高准确性

权衡：

所有变体的大小均有适度增加（0.1 - 0.3GB）
推理速度相当（差异 < 5%）

何时使用这些模型

将模型适配到GPU显存
内存受限的部署
CPU和边缘设备，可容忍 1 - 2 比特误差
超低比特量化研究

选择合适的模型格式

选择正确的模型格式取决于您的硬件能力和内存限制。

BF16（脑浮点16） - 如果支持BF16加速则使用

一种 16 位浮点格式，专为更快计算而设计，同时保留良好的精度。
提供与 FP32 相似的动态范围，但内存使用更低。
如果您的硬件支持 BF16 加速（请检查设备规格），建议使用。
与 FP32 相比，适用于高性能推理且内存占用减少。

使用 BF16 的情况：

您的硬件具有原生 BF16 支持（例如，较新的 GPU、TPU）。
您希望在节省内存的同时获得更高精度。
您计划将模型重新量化为另一种格式。

避免使用 BF16 的情况：

您的硬件不支持 BF16（可能会回退到 FP32 并运行较慢）。
您需要与缺乏 BF16 优化的旧设备兼容。

F16（浮点16） - 比 BF16 更广泛支持

一种 16 位浮点格式，精度较高，但取值范围小于 BF16。
适用于大多数支持 FP16 加速的设备（包括许多 GPU 和一些 CPU）。
数值精度略低于 BF16，但通常足以进行推理。

使用 F16 的情况：

您的硬件支持 FP16 但不支持 BF16。
您需要在速度、内存使用和准确性之间取得平衡。
您在GPU或其他针对 FP16 计算优化的设备上运行。

避免使用 F16 的情况：

您的设备缺乏原生 FP16 支持（可能运行比预期慢）。
您有内存限制。

量化模型（Q4_K、Q6_K、Q8 等） - 用于 CPU 和低显存推理

量化可在尽可能保持准确性的同时减小模型大小和内存使用。

低比特模型（Q4_K） → 最适合最小内存使用，可能精度较低。
高比特模型（Q6_K、Q8_0） → 准确性更高，需要更多内存。

使用量化模型的情况：

您在CPU上运行推理，需要优化的模型。
您的设备显存较低，无法加载全精度模型。
您希望在保持合理准确性的同时减少内存占用。

避免使用量化模型的情况：

您需要最高准确性（全精度模型更适合）。
您的硬件有足够的显存用于更高精度的格式（BF16/F16）。

极低比特量化（IQ3_XS、IQ3_S、IQ3_M、Q4_K、Q4_0）

这些模型针对极致内存效率进行了优化，非常适合低功耗设备或大规模部署，其中内存是关键限制因素。

IQ3_XS：超低比特量化（3 比特），具有极致内存效率。
- 用例：最适合超低内存设备，即使 Q4_K 也太大。
- 权衡：与高比特量化相比，准确性较低。
IQ3_S：小块大小，实现最大内存效率。
- 用例：最适合低内存设备，其中 IQ3_XS 过于激进。
IQ3_M：中等块大小，比 IQ3_S 具有更好的准确性。
- 用例：适用于低内存设备，其中 IQ3_S 限制过大。
Q4_K：4 比特量化，具有逐块优化以提高准确性。
- 用例：最适合低内存设备，其中 Q6_K 太大。
Q4_0：纯 4 比特量化，针对 ARM 设备进行了优化。
- 用例：最适合基于 ARM 的设备或低内存环境。

总结表：模型格式选择

模型格式	精度	内存使用	设备要求	最佳用例
BF16	最高	高	支持 BF16 的 GPU/CPU	减少内存的高速推理
F16	高	高	支持 FP16 的设备	当 BF16 不可用时的 GPU 推理
Q4_K	中低	低	CPU 或低显存设备	内存受限环境的最佳选择
Q6_K	中等	适中	内存更多的 CPU	量化模型中准确性较好
Q8_0	高	适中	有足够显存的 CPU 或 GPU	量化模型中最佳准确性
IQ3_XS	非常低	非常低	超低内存设备	极致内存效率和低准确性
Q4_0	低	低	ARM 或低内存设备	llama.cpp 可针对 ARM 设备进行优化

包含文件及详情

`FairyR1-32B-bf16.gguf`

模型权重保存为 BF16。
如果您想将模型重新量化为不同格式，请使用此文件。
如果您的设备支持 BF16 加速，则最佳。

`FairyR1-32B-f16.gguf`

模型权重存储为 F16。
如果您的设备支持 FP16，特别是当 BF16 不可用时，请使用。

`FairyR1-32B-bf16-q8_0.gguf`

输出和嵌入层保持为 BF16。
所有其他层量化为 Q8_0。
如果您的设备支持 BF16 并且您想要量化版本，请使用。

`FairyR1-32B-f16-q8_0.gguf`

输出和嵌入层保持为 F16。
所有其他层量化为 Q8_0。

`FairyR1-32B-q4_k.gguf`

输出和嵌入层量化为 Q8_0。
所有其他层量化为 Q4_K。
适用于内存有限的 CPU 推理。

`FairyR1-32B-q4_k_s.gguf`

最小的 Q4_K 变体，以牺牲准确性为代价减少内存使用。
最适合极低内存设置。

`FairyR1-32B-q6_k.gguf`

输出和嵌入层量化为 Q8_0。
所有其他层量化为 Q6_K。

`FairyR1-32B-q8_0.gguf`

完全 Q8 量化模型，以提高准确性。
需要更多内存，但提供更高的精度。

`FairyR1-32B-iq3_xs.gguf`

IQ3_XS 量化，针对极致内存效率进行了优化。
最适合超低内存设备。

`FairyR1-32B-iq3_m.gguf`

IQ3_M 量化，提供中等块大小以提高准确性。
适用于低内存设备。

`FairyR1-32B-q4_0.gguf`

纯 Q4_0 量化，针对 ARM 设备进行了优化。
最适合低内存环境。
为了更好的准确性，建议使用 IQ4_NL。

模型测试与协作

如果您发现这些模型有用，请点击“点赞”！同时，帮助我测试我的人工智能网络监控助手，进行量子就绪安全检查：免费网络监控器

如何测试

选择一种 AI 助手类型：

TurboLLM (GPT-4o-mini)
HugLLM (Hugginface 开源)
TestLLM (仅实验性 CPU)

测试内容

我正在挑战小型开源模型在人工智能网络监控方面的极限，具体包括：

针对实时网络服务的函数调用
模型可以多小，同时仍能处理：
- 自动化 Nmap 扫描
- 量子就绪检查
- 网络监控任务

TestLLM - 当前实验模型（llama.cpp 在 2 个 CPU 线程上）

零配置设置
30 秒加载时间（推理慢，但无 API 成本）
寻求帮助！ 如果您对边缘设备人工智能感兴趣，让我们合作！

其他助手

TurboLLM - 使用 gpt-4o-mini 进行：
- 创建自定义 cmd 处理器，在免费网络监控代理上运行 .net 代码
- 实时网络诊断和监控
- 安全审计
- 渗透测试（Nmap/Metasploit）
- 通过登录或下载我们集成了人工智能助手的免费网络监控代理获得更多令牌
HugLLM - 最新开源模型：
- 在 Hugging Face 推理 API 上运行

示例命令测试

"Give me info on my websites SSL certificate"
"Check if my server is using quantum safe encyption for communication"
"Run a comprehensive security audit on my server"
"Create a cmd processor to .. (what ever you want)" 注意：您需要安装免费网络监控代理才能运行 .net 代码。这是一个非常灵活和强大的功能，请谨慎使用！

📚 详细文档

模型介绍

FairyR1-32B由PKU-DS-LAB创建，是一款基于DeepSeek-R1-Distill-Qwen-32B基础模型的高效大语言模型。它采用创新的“蒸馏与融合”管道，结合任务聚焦微调与模型融合技术，在大幅减少参数和推理成本的情况下，仍能在特定任务上达到或超越更大模型的性能。该项目由国家自然科学基金（NSFC）资助，项目编号为624B2005。

模型详情

FairyR1模型是对我们早期工作 TinyR1 的进一步探索，保留了核心的“分支 - 融合蒸馏”方法，同时在数据处理和模型架构方面进行了改进。

在数据处理方面，我们彻底改革了蒸馏数据管道：来自AIMO/NuminaMath-1.5等数据集的原始数学示例和来自OpenThoughts-114k的代码示例，首先通过多个“教师”模型生成候选答案。然后对这些候选答案进行精心选择、重组和优化，特别是针对思维链（CoT）。随后，我们应用了多阶段过滤，包括对数学问题的自动正确性检查和基于长度的选择（数学样本为2K - 8K令牌，代码样本为4K - 8K令牌）。这产生了两个聚焦的训练集，大约有6.6K个数学示例和3.8K个代码示例。

在模型方面，我们不再像以前那样训练三个独立的专家模型，而是将范围限制在两个领域专家（数学和代码），每个专家在相同的超参数（例如，学习率和批量大小）下独立训练约五个周期。然后，我们使用 AcreeFusion 工具将这些专家融合成一个32B参数的模型。通过简化数据蒸馏工作流程和专家模型融合过程，FairyR1仅用大模型参数和计算成本的一小部分，就取得了具有竞争力的任务结果。

结果分析与主要贡献

从测试结果来看，FairyR1在AIME 2025和LiveCodeBench基准测试中得分略高于DeepSeek-R1-671B，在AIME 2024上表现相当。

这些结果表明，通过基于DeepSeek-R1-Distill-Qwen-32B基础模型并应用针对性技术，FairyR1在数学和编程领域使用仅约5%的参数，就能达到相当或略优于大模型的性能，尽管在其他领域（如科学问答）可能仍存在性能差距。

这项工作证明了通过优化数据处理和模型融合技术，在保持特定任务强性能的同时，显著减少模型大小和潜在推理成本是可行的。

模型描述

属性	详情
模型类型	推理模型
训练数据	数学：约6.6K个来自 AI-MO/NuminaMath-1.5 默认子集的思维链轨迹；代码：约3.8K个来自 open-thoughts/OpenThoughts-114k 代码子集的思维链轨迹
语言	英语、中文
许可证	Apache-2.0
微调基础模型	DeepSeek-R1-Distill-Qwen-32B

硬件使用情况

硬件类型：32 × NVIDIA-H100
数学训练用时：2.5小时
代码训练用时：1.5小时
模型融合：在CPU上约40分钟，无需GPU

评估集

AIME 2024/2025（数学）：我们评估32次并报告平均准确率。AIME 2024 包含30个问题。AIME 2025 由第一部分和第二部分组成，共30个问题。
LiveCodeBench（代码）：我们评估8次并报告平均准确率。数据集版本为“release_v5”（日期范围：2024 - 08 - 01至2025 - 02 - 01），包含279个问题。
GPQA-Diamond（科学问答）：我们评估8次并报告平均准确率。数据集包含198个问题。