Falcon3-Mamba-R1-v0開源推理優化模型 - 基於曼巴架構實現高效推理

首頁

Falcon3 Mamba R1 V0

由hanzla開發

基於Falcon3-Mamba-7B-Instruct微調的推理優化模型，採用曼巴架構實現高效推理

大型語言模型

Transformers

#曼巴架構推理 #STEM問答優化 #線性計算效率

下載量 1,690

發布時間 : 3/8/2025

模型概述

專為重推理任務優化的語言模型，擅長數學、邏輯與結構化問題求解，基於曼巴架構實現線性計算增長

模型特點

高效推理架構

曼巴架構使計算量隨token數量線性增長，保持高質量響應的同時實現快速推理

邏輯推理優化

針對STEM領域問題進行專項微調，顯著提升數學和邏輯問題解決能力

長文本生成

支持長達64K token的上下文處理（超長文本時性能可能下降）

模型能力

數學問題求解

邏輯推理

結構化問題解決

STEM領域問答

通用文本生成

使用案例

教育科研

數學解題助手

幫助學生分步驟解決複雜數學問題

GSM8K測試集準確率89.5%

科研問題分析

協助研究人員進行邏輯推理和假設驗證

技術開發

編程邏輯輔助

生成算法偽代碼或解決編程難題

🚀 Falcon3-Mamba-R1-v0

Falcon3-Mamba-R1-v0 是基於 Falcon3-Mamba-7B-Instruct 微調的模型，專為邏輯推理和結構化問題解決而優化，在處理推理任務時高效快速，且能保持較高的響應質量。

模型圖片

📚 詳細文檔

模型詳情

此模型是 Falcon3-Mamba-7B-Instruct 的微調版本，在生成響應前會針對邏輯推理和結構化問題解決進行優化。它採用了 Mamba 架構，該架構在處理更多的 token 時具有線性擴展性，使其成為一個高效且快速的推理模型，同時保持較高的響應質量。這個微調版本來自微調管道的早期檢查點。

開發者：Hanzla Javaid
基礎模型：tiiuae/Falcon3-Mamba-7B-Instruct
模型類型：基於 Mamba 的因果解碼器
模型發佈日期：2025 年 3 月

預期用途

直接使用

該模型設計用於以下場景：

推理密集型任務（數學、邏輯和結構化問題解決）
基於 STEM 的問答
通用文本生成

下游使用

針對特定領域應用進行微調，如金融、法律、醫學和研究。
集成到需要高級推理能力的聊天機器人和虛擬助理中。
增強自動編碼助手的結構化邏輯構建能力。

非預期使用

傳播錯誤信息或進行欺騙性應用
在高風險領域進行自動決策（如無人工監督的醫療診斷）
對公平性有嚴格要求但未明確控制的敏感應用

偏差與侷限性

已知偏差

該模型優先處理英語數據，因此在多語言任務上的性能可能較弱。
微調可能會引入或放大訓練數據中存在的偏差，特別是在倫理、政治和文化觀點等方面。

技術侷限性

在處理超過 64K token 的長文本生成時，性能可能會下降。

建議

用戶應驗證輸出的準確性，特別是在關鍵應用中。
在生產環境中部署時，應定期進行偏差評估。

訓練詳情

訓練過程

預訓練基礎模型：Falcon3-Mamba-7B-Instruct
微調數據：來自 open-thoughts/OpenThoughts-114k 的 STEM 問題子集
訓練策略：GRPO
訓練超參數：
- 批量大小：4
- 訓練輪數：3
- 精度：混合精度（fp16 / bf16）
- 硬件：2 塊 H100 GPU

評估

測試數據和指標

對微調後的模型在各種基準測試上進行了評估，以評估其推理能力和整體性能。下表展示了微調模型與基礎模型的對比：

類別	基準測試	Falcon3-Mamba-R1-v0	基礎 Falcon3-Mamba-7B-Instruct
通用	MMLU (5-shot)	72.1	65.3
數學	GSM8K (5-shot)	89.5	65.2

技術規格

模型架構

Mamba 塊：64
隱藏層大小：4096

軟件要求

transformers >= 4.38
torch >= 2.1
accelerate >= 0.25
mamba-ssm
causal-conv1d>=1.4.0

📦 安裝指南

要使用此模型，你可以使用 transformers 庫加載它：

repo_name = "hanzla/Falcon3-Mamba-R1-v0"
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch

tokenizer = AutoTokenizer.from_pretrained(repo_name)

model = AutoModelForCausalLM.from_pretrained(
    repo_name,
    device_map="auto",
    torch_dtype=torch.float16,
)

def generate_text(prompt,generation_model,generation_tokenizer,max_tokens=1024):
    messages = [
        {"role": "system", "content": "You are a helpful assistant"},
        {"role": "user", "content": prompt},
    ]
    input_text = generation_tokenizer.apply_chat_template(messages, tokenize=False, add_generation_prompt=True)
    print(input_text)
    input_ids = generation_tokenizer(input_text, return_tensors="pt").input_ids.to("auto")
    outputs = generation_model.generate(input_ids, max_new_tokens=max_tokens)
    generated_tokens = outputs[0][len(input_ids[0]):] 
    return tokenizer.decode(generated_tokens, skip_special_tokens=True)

🔧 技術細節

模型架構

屬性	詳情
模型類型	基於 Mamba 的因果解碼器
訓練數據	來自 open-thoughts/OpenThoughts-114k 的 STEM 問題子集
訓練策略	GRPO
批量大小	4
訓練輪數	3
精度	混合精度（fp16 / bf16）
硬件	2 塊 H100 GPU