Theta-35开源推理模型 - 免费部署解决复杂思维和深度逻辑分析难题

首页

Theta 35

由 SVECTOR-CORPORATION 开发

Theta-35 是 SVECTOR 推出的 Theta 系列中的先进推理模型，专注于复杂思维和推理，在需要深度逻辑分析和多步推理的难题上表现出色。

大型语言模型

Transformers

英语开源协议:Apache-2.0 #深度逻辑推理 #多步问题求解 #长上下文处理

下载量 10.44k

发布时间 : 3/6/2025

模型简介

Theta-35 是一款专注于复杂思维和推理的大语言模型，通过预训练和后训练（监督微调与强化学习）优化，在数学推理、逻辑演绎、多步问题解决等任务中表现卓越。

模型特点

高级推理能力

专注于复杂思维和推理，在需要深度逻辑分析和多步推理的难题上表现显著提升。

长上下文处理

支持完整的 131,072 个标记的上下文长度，并可通过滑动窗口注意力处理超过 32,768 个标记的输入。

优化的推理设置

建议使用特定的采样参数（Temperature=0.6, TopP=0.95, TopK=20-40）以获得最佳性能。

标准化输出格式

支持通过提示标准化模型输出格式，便于数学问题和多项选择题的自动评估。

模型能力

复杂逻辑推理

多步问题解决

数学计算与证明

代码理解与生成

科学概念解释

长文本理解与分析

使用案例

教育与研究

数学问题解答

解答需要多步推理的复杂数学问题，并展示完整的解题过程。

在数学推理任务中表现卓越，能够提供逐步的解题思路。

科学概念解释

解释复杂的科学概念和理论，帮助学习者理解。

能够清晰准确地解释科学原理，适合教育用途。

编程与开发

代码理解与生成

理解现有代码的功能或根据需求生成新的代码片段。

在代码理解和生成任务中表现良好，支持多种编程语言。

逻辑分析与决策支持

逻辑问题解决

分析复杂的逻辑问题，提供合理的解决方案。

在逻辑推理任务中表现突出，能够处理多变量和多条件的复杂问题。

🚀 Theta-35

Theta-35 是 SVECTOR 推出的 Theta 系列中的先进推理模型。与传统的指令微调模型相比，Theta-35 专注于复杂思维和推理，在下游任务中表现显著提升，尤其在需要深度逻辑分析和多步推理的难题上表现出色。

🚀 快速开始

以下是一段代码片段，展示了如何加载分词器和模型，以及如何生成内容：

from transformers import AutoModelForCausalLM, AutoTokenizer

# 直接加载模型和分词器
model_name = "SVECTOR-CORPORATION/Theta-35"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 准备提示
prompt = "How many planets are in our solar system? Explain your reasoning."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True  # 这将自动添加 "<reasoning>" 标签
)

# 生成响应
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    top_k=30
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

# 解码并打印响应
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

使用指南

为了让 Theta-35 达到最佳性能，我们建议采用以下设置：

强制输出深思熟虑的结果：确保模型以 "<reasoning>\n" 开头，以促进逐步思考，从而提高输出质量。如果使用 apply_chat_template 并将 add_generation_prompt 设置为 True，则会自动实现这一点。
采样参数：
- 使用 Temperature=0.6 和 TopP=0.95 代替贪心解码，以避免重复。
- 使用 20 到 40 之间的 TopK 来过滤掉罕见的标记出现，同时保持多样性。
标准化输出格式：我们建议在进行基准测试时使用提示来标准化模型输出。
- 数学问题：在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多项选择题：在提示中添加 "Please show your choice in the answer field with only the choice letter, e.g.,\"answer\": \"C\"."。
处理长输入：对于超过 32,768 个标记的输入，启用滑动窗口注意力，以提高模型有效处理长序列的能力。

对于支持的框架，可以在 config.json 中添加以下内容以启用扩展上下文处理：

{
  ...,
  "use_sliding_window": true,
  "sliding_window": 32768
}

✨ 主要特性

本仓库包含 Theta-35 模型，它具有以下特点：

训练阶段：预训练和后训练（监督微调与强化学习）
架构：采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer
参数数量：330 亿
非嵌入参数数量：330 亿
层数：64
注意力头数量（GQA）：Q 为 40，KV 为 8
上下文长度：完整的 131,072 个标记
滑动窗口：32,768 个标记

注意：为获得最佳体验，请在部署 Theta 模型之前查看使用指南。

如需更多详细信息，请参考我们的文档。

📦 安装指南

Theta-35 需要最新版本的 Hugging Face transformers。我们建议使用 4.43.1 或更高版本。

使用较旧版本的 transformers 时，可能会遇到以下错误：

KeyError: 'theta'

🔧 技术细节

Theta-35 在各种推理任务中表现卓越，包括：

数学推理
逻辑演绎
多步问题解决
代码理解与生成
科学推理

详细的评估结果请参考我们的文档。

📄 许可证

本项目采用 Apache-2.0 许可证。

📚 引用

如果您觉得我们的工作有帮助，请随意引用：

@misc{theta35,
    title = {Theta-35: Advanced Reasoning in Large Language Models},
    url = {https://www.svector.co.in/models/theta-35},
    author = {SVECTOR Team},
    month = {March},
    year = {2025}
}

@article{theta,
      title={Theta Technical Report}, 
      author={SVECTOR Research Team},
      year={2025}
}