🚀 Falcon3-Mamba-R1-v0
Falcon3-Mamba-R1-v0 是基于 Falcon3-Mamba-7B-Instruct 微调的模型,专为逻辑推理和结构化问题解决而优化,在处理推理任务时高效快速,且能保持较高的响应质量。

📚 详细文档
模型详情
此模型是 Falcon3-Mamba-7B-Instruct 的微调版本,在生成响应前会针对逻辑推理和结构化问题解决进行优化。它采用了 Mamba 架构,该架构在处理更多的 token 时具有线性扩展性,使其成为一个高效且快速的推理模型,同时保持较高的响应质量。这个微调版本来自微调管道的早期检查点。
- 开发者:Hanzla Javaid
- 基础模型:tiiuae/Falcon3-Mamba-7B-Instruct
- 模型类型:基于 Mamba 的因果解码器
- 模型发布日期:2025 年 3 月
预期用途
直接使用
该模型设计用于以下场景:
- 推理密集型任务(数学、逻辑和结构化问题解决)
- 基于 STEM 的问答
- 通用文本生成
下游使用
- 针对特定领域应用进行微调,如金融、法律、医学和研究。
- 集成到需要高级推理能力的聊天机器人和虚拟助理中。
- 增强自动编码助手的结构化逻辑构建能力。
非预期使用
- 传播错误信息或进行欺骗性应用
- 在高风险领域进行自动决策(如无人工监督的医疗诊断)
- 对公平性有严格要求但未明确控制的敏感应用
偏差与局限性
已知偏差
- 该模型优先处理英语数据,因此在多语言任务上的性能可能较弱。
- 微调可能会引入或放大训练数据中存在的偏差,特别是在伦理、政治和文化观点等方面。
技术局限性
- 在处理超过 64K token 的长文本生成时,性能可能会下降。
建议
- 用户应验证输出的准确性,特别是在关键应用中。
- 在生产环境中部署时,应定期进行偏差评估。
训练详情
训练过程
- 预训练基础模型:Falcon3-Mamba-7B-Instruct
- 微调数据:来自 open-thoughts/OpenThoughts-114k 的 STEM 问题子集
- 训练策略:GRPO
- 训练超参数:
- 批量大小:4
- 训练轮数:3
- 精度:混合精度(fp16 / bf16)
- 硬件:2 块 H100 GPU
评估
测试数据和指标
对微调后的模型在各种基准测试上进行了评估,以评估其推理能力和整体性能。下表展示了微调模型与基础模型的对比:
类别 |
基准测试 |
Falcon3-Mamba-R1-v0 |
基础 Falcon3-Mamba-7B-Instruct |
通用 |
MMLU (5-shot) |
72.1 |
65.3 |
数学 |
GSM8K (5-shot) |
89.5 |
65.2 |
技术规格
模型架构
软件要求
transformers >= 4.38
torch >= 2.1
accelerate >= 0.25
mamba-ssm
causal-conv1d>=1.4.0
📦 安装指南
要使用此模型,你可以使用 transformers
库加载它:
repo_name = "hanzla/Falcon3-Mamba-R1-v0"
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tokenizer = AutoTokenizer.from_pretrained(repo_name)
model = AutoModelForCausalLM.from_pretrained(
repo_name,
device_map="auto",
torch_dtype=torch.float16,
)
def generate_text(prompt,generation_model,generation_tokenizer,max_tokens=1024):
messages = [
{"role": "system", "content": "You are a helpful assistant"},
{"role": "user", "content": prompt},
]
input_text = generation_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
print(input_text)
input_ids = generation_tokenizer(input_text, return_tensors="pt").input_ids.to("auto")
outputs = generation_model.generate(input_ids, max_new_tokens=max_tokens)
generated_tokens = outputs[0][len(input_ids[0]):]
return tokenizer.decode(generated_tokens, skip_special_tokens=True)
🔧 技术细节
模型架构
属性 |
详情 |
模型类型 |
基于 Mamba 的因果解码器 |
训练数据 |
来自 open-thoughts/OpenThoughts-114k 的 STEM 问题子集 |
训练策略 |
GRPO |
批量大小 |
4 |
训练轮数 |
3 |
精度 |
混合精度(fp16 / bf16) |
硬件 |
2 块 H100 GPU |
软件依赖
transformers >= 4.38
torch >= 2.1
accelerate >= 0.25
mamba-ssm
causal-conv1d>=1.4.0
⚠️ 重要提示
该模型优先处理英语数据,在多语言任务上性能可能较弱;在处理超过 64K token 的长文本生成时,性能可能会下降。用户应验证输出的准确性,特别是在关键应用中;在生产环境中部署时,应定期进行偏差评估。
💡 使用建议
若要将模型应用于特定领域,可对其进行微调;若要增强自动编码助手的结构化逻辑构建能力,可将该模型集成到其中。