Falcon3-Mamba-R1-v0开源推理优化模型 - 基于曼巴架构实现高效推理

首页

Falcon3 Mamba R1 V0

由 hanzla 开发

基于Falcon3-Mamba-7B-Instruct微调的推理优化模型，采用曼巴架构实现高效推理

大型语言模型

Transformers

#曼巴架构推理 #STEM问答优化 #线性计算效率

下载量 1,690

发布时间 : 3/8/2025

模型简介

专为重推理任务优化的语言模型，擅长数学、逻辑与结构化问题求解，基于曼巴架构实现线性计算增长

模型特点

高效推理架构

曼巴架构使计算量随token数量线性增长，保持高质量响应的同时实现快速推理

逻辑推理优化

针对STEM领域问题进行专项微调，显著提升数学和逻辑问题解决能力

长文本生成

支持长达64K token的上下文处理（超长文本时性能可能下降）

模型能力

数学问题求解

逻辑推理

结构化问题解决

STEM领域问答

通用文本生成

使用案例

教育科研

数学解题助手

帮助学生分步骤解决复杂数学问题

GSM8K测试集准确率89.5%

科研问题分析

协助研究人员进行逻辑推理和假设验证

技术开发

编程逻辑辅助

生成算法伪代码或解决编程难题

🚀 Falcon3-Mamba-R1-v0

Falcon3-Mamba-R1-v0 是基于 Falcon3-Mamba-7B-Instruct 微调的模型，专为逻辑推理和结构化问题解决而优化，在处理推理任务时高效快速，且能保持较高的响应质量。

模型图片

📚 详细文档

模型详情

此模型是 Falcon3-Mamba-7B-Instruct 的微调版本，在生成响应前会针对逻辑推理和结构化问题解决进行优化。它采用了 Mamba 架构，该架构在处理更多的 token 时具有线性扩展性，使其成为一个高效且快速的推理模型，同时保持较高的响应质量。这个微调版本来自微调管道的早期检查点。

开发者：Hanzla Javaid
基础模型：tiiuae/Falcon3-Mamba-7B-Instruct
模型类型：基于 Mamba 的因果解码器
模型发布日期：2025 年 3 月

预期用途

直接使用

该模型设计用于以下场景：

推理密集型任务（数学、逻辑和结构化问题解决）
基于 STEM 的问答
通用文本生成

下游使用

针对特定领域应用进行微调，如金融、法律、医学和研究。
集成到需要高级推理能力的聊天机器人和虚拟助理中。
增强自动编码助手的结构化逻辑构建能力。

非预期使用

传播错误信息或进行欺骗性应用
在高风险领域进行自动决策（如无人工监督的医疗诊断）
对公平性有严格要求但未明确控制的敏感应用

偏差与局限性

已知偏差

该模型优先处理英语数据，因此在多语言任务上的性能可能较弱。
微调可能会引入或放大训练数据中存在的偏差，特别是在伦理、政治和文化观点等方面。

技术局限性

在处理超过 64K token 的长文本生成时，性能可能会下降。

建议

用户应验证输出的准确性，特别是在关键应用中。
在生产环境中部署时，应定期进行偏差评估。

训练详情

训练过程

预训练基础模型：Falcon3-Mamba-7B-Instruct
微调数据：来自 open-thoughts/OpenThoughts-114k 的 STEM 问题子集
训练策略：GRPO
训练超参数：
- 批量大小：4
- 训练轮数：3
- 精度：混合精度（fp16 / bf16）
- 硬件：2 块 H100 GPU

评估

测试数据和指标

对微调后的模型在各种基准测试上进行了评估，以评估其推理能力和整体性能。下表展示了微调模型与基础模型的对比：

类别	基准测试	Falcon3-Mamba-R1-v0	基础 Falcon3-Mamba-7B-Instruct
通用	MMLU (5-shot)	72.1	65.3
数学	GSM8K (5-shot)	89.5	65.2

技术规格

模型架构

Mamba 块：64
隐藏层大小：4096

软件要求

transformers >= 4.38
torch >= 2.1
accelerate >= 0.25
mamba-ssm
causal-conv1d>=1.4.0

📦 安装指南

要使用此模型，你可以使用 transformers 库加载它：

repo_name = "hanzla/Falcon3-Mamba-R1-v0"
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained(repo_name)

model = AutoModelForCausalLM.from_pretrained(
    repo_name,
    device_map="auto",
    torch_dtype=torch.float16,
)

def generate_text(prompt,generation_model,generation_tokenizer,max_tokens=1024):
    messages = [
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": prompt},
    ]
    input_text = generation_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    print(input_text)
    input_ids = generation_tokenizer(input_text, return_tensors="pt").input_ids.to("auto")
    outputs = generation_model.generate(input_ids, max_new_tokens=max_tokens)
    generated_tokens = outputs[0][len(input_ids[0]):] 
    return tokenizer.decode(generated_tokens, skip_special_tokens=True)

🔧 技术细节

模型架构

属性	详情
模型类型	基于 Mamba 的因果解码器
训练数据	来自 open-thoughts/OpenThoughts-114k 的 STEM 问题子集
训练策略	GRPO
批量大小	4
训练轮数	3
精度	混合精度（fp16 / bf16）
硬件	2 块 H100 GPU