Spec-T1-RL-7B開源大語言模型 - 免費部署助力數學推理與代碼生成

首頁

Spec T1 RL 7B

由SVECTOR-CORPORATION開發

Spec-T1-RL-7B 是一款專注於數學推理、算法問題解決和代碼生成的高精度大語言模型，在技術基準測試中表現卓越。

大型語言模型

Safetensors

英語開源協議:MIT #數學推理 #算法優化 #代碼生成

下載量 4,626

發布時間 : 5/3/2025

模型概述

該模型通過優化的架構設計和三階段訓練過程，在數學推理、算法設計和代碼生成等需要精確邏輯思維的領域展現出超越同類模型的性能。

模型特點

數學推理能力

通過逐步邏輯推導解決複雜數學問題，內置符號驗證機制

算法設計優化

在多個領域高效設計和分析算法，提供優化解決方案

高質量代碼生成

生成功能完善、測試通過率高的代碼，支持多種編程語言

精確指令遵循

對結構化技術提示做出準確響應，保持邏輯一致性

高效架構設計

採用混合專家架構和優化注意力機制，在70億參數規模下實現高效推理

模型能力

數學證明推導

算法設計與分析

編程代碼生成

邏輯問題求解

技術文檔理解

使用案例

教育研究

數學問題求解

幫助學生理解複雜數學概念，提供分步解題過程

在MATH-500基準測試中達到96.1%的通過率

算法教學輔助

生成算法示例並解釋其工作原理和複雜度分析

軟件開發

代碼自動生成

根據需求描述生成功能完整的代碼實現

在LiveCodeBench v5測試中達到60.2%的通過率

算法實現優化

為特定問題提供優化的算法實現方案

技術研究

數學定理證明

輔助研究人員進行形式化數學證明

在AIME 2025測試中達到68.3%的通過率

🚀 Spec-T1-RL-7B

Spec-T1-RL-7B 是一款高精度的數學與算法推理模型，在數學推理、算法問題解決和代碼生成等領域表現卓越，能為相關技術研究和應用提供強大支持。

📄 模型卡片

屬性	詳情
開發者	SVECTOR
模型大小	70 億參數
上下文長度	32,000 個詞元
訓練數據	專注於推理的數據集，包含數學、邏輯和代碼內容
精度	`bfloat16`, `float16`
許可證	MIT
發佈日期	2025 年 5 月

🌟 模型概述

Spec-T1-RL-7B 是一款專門設計的大語言模型，旨在數學推理、算法問題解決和實際代碼生成方面表現出色。與通用模型不同，Spec-T1 在架構設計和訓練過程中特別針對需要精確邏輯思維的領域進行了優化。

該模型在 70 億參數規模下，推理能力有了顯著提升，在技術基準測試中超越了許多更大規模的模型，同時保持了高效的部署要求。

✨ 主要特性

數學推理：通過逐步的邏輯推導解決複雜的數學問題。
算法問題解決：在多個領域設計和分析算法。
代碼生成：生成功能完善、高質量的代碼，測試通過率高。
精確指令遵循：準確響應結構化的技術提示。
符號驗證：使用內置的驗證機制進行數學和邏輯驗證。

🏗️ 模型架構

Spec-T1-RL-7B 結合了多種架構創新，以實現其專門的推理能力：

基礎架構：具有優化注意力機制的先進變壓器架構。
專家混合（MoE）：輕量級條件計算，實現高效擴展。
激活函數：SwiGLU 激活函數，改善數學運算中的梯度流。
歸一化：RMSNorm，在推理任務中實現更快的收斂和穩定性。

📈 訓練方法

我們的模型經過了三個階段的訓練過程，旨在優化推理能力：

1️⃣ 推理感知預訓練

專業語料庫：高度強調數學符號、邏輯語法和代碼。
課程學習方法：優先處理結構化推理模式。
自定義分詞器：針對數學和編程語法進行優化。

2️⃣ 指令微調

400K+ 多領域結構化提示：專注於推理任務。
結合 CodeInstruct 方法和 ThoughtChain 提示。
合成數據生成：帶有驗證反饋循環。

3️⃣ 強化學習對齊

獎勵建模：使用確定性的通過/失敗信號來評估數學和代碼的正確性。
單元測試集成：即時驗證生成的解決方案。
符號驗證：對數學證明和推導進行驗證。

📊 基準測試性能

Spec-T1-RL-7B 模型在推理基準測試中表現出色，特別是在數學和代碼生成任務中：

通用推理

基準測試	GPT-4o-0513	Claude-3.5-Sonnet	OpenAI o1-mini	QwQ-32B	Spec-T1
GPQA Diamond (Pass@1)	49.9	65.0	60.0	54.5	65.1
SuperGPQA (Pass@1)	42.4	48.2	45.2	43.6	52.8
DROP (3-shot F1)	83.7	88.3	83.9	71.2	86.2
MMLU-Pro (EM)	72.6	78.0	80.3	52.0	76.4
IF-Eval (Prompt Strict)	84.3	86.5	84.8	40.4	83.3

數學基準測試

數學

基準測試	GPT-4o-0513	Claude-3.5-Sonnet	OpenAI o1-mini	QwQ-32B	Spec-T1
MATH-500 (Pass@1)	74.6	78.3	90.0	90.6	96.1
AIME 2024 (Pass@1)	9.3	16.0	63.6	50.0	74.5
AIME 2025 (Pass@1)	11.6	7.4	50.7	32.4	68.3

代碼生成

基準測試	GPT-4o-0513	Claude-3.5-Sonnet	OpenAI o1-mini	QwQ-32B	Spec-T1
LiveCodeBench v5 (Pass@1)	32.9	38.9	53.8	41.9	60.2
LiveCodeBench v6 (Pass@1)	30.9	37.2	46.8	39.1	54.4

💻 使用示例

基礎用法（使用 Transformers）

from transformers import AutoModelForCausalLM, AutoTokenizer

# 加載模型和分詞器
model = AutoModelForCausalLM.from_pretrained("SVECTOR-CORPORATION/Spec-T1-RL-7B")
tokenizer = AutoTokenizer.from_pretrained("SVECTOR-CORPORATION/Spec-T1-RL-7B")

# 數學推理示例
prompt = """
Prove: The sum of the first n odd numbers is n^2.
"""

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(inputs, max_new_tokens=512)
print(tokenizer.decode(outputs[0], skip_special_tokens=True))

高級用法（使用生成參數）

# 算法設計示例
prompt = """
Design an efficient algorithm to find the longest increasing subsequence in an array of integers.
"""

# 配置生成參數以獲得更好的推理效果
inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(
    inputs,
    max_new_tokens=1024,
    temperature=0.1,
    top_p=0.95,
    do_sample=True,
    num_return_sequences=1,
    repetition_penalty=1.1
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

代碼生成示例

# 代碼生成示例
prompt = """
Write a Python function that implements the A* search algorithm for pathfinding.
"""

inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
outputs = model.generate(
    inputs,
    max_new_tokens=2048,
    temperature=0.2,
    top_p=0.9,
    do_sample=True
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

🚀 部署

由於其高效的架構和參數數量，Spec-T1-RL-7B 可以部署在消費級硬件上：

最低要求

16GB 顯存（bfloat16/float16）
32GB 系統內存
支持 CUDA 的 GPU

📝 引用

如果您在研究中使用了 Spec-T1-RL-7B，請引用：

@misc{svector2025spect1,
  title={Spec-T1-RL-7B: Structured Reasoning through Reinforcement Alignment},
  author={SVECTOR Team},
  year={2025},
}

📄 許可證

Spec-T1-RL-7B 採用 MIT 許可證發佈。

📞 聯繫我們

如有問題、反饋或合作諮詢，請聯繫：

郵箱：research@svector.co.in
X：@SVECTOR_
GitHub：SVECTOR-CORPORATION

精選推薦AI模型

Llama 3 Typhoon V1.5x 8b Instruct

專為泰語設計的80億參數指令模型，性能媲美GPT-3.5-turbo，優化了應用場景、檢索增強生成、受限生成和推理任務

Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型，專為邊緣設備推理設計，體積僅為Cosmo-3B模型的2%左右。

Roberta Base Chinese Extractive Qa

基於RoBERTa架構的中文抽取式問答模型，適用於從給定文本中提取答案的任務。

智啟未來，您的人工智能解決方案智庫