🚀 Theta-35
Theta-35 是 SVECTOR 推出的 Theta 系列中的先进推理模型。与传统的指令微调模型相比,Theta-35 专注于复杂思维和推理,在下游任务中表现显著提升,尤其在需要深度逻辑分析和多步推理的难题上表现出色。
🚀 快速开始
以下是一段代码片段,展示了如何加载分词器和模型,以及如何生成内容:
from transformers import AutoModelForCausalLM, AutoTokenizer
model_name = "SVECTOR-CORPORATION/Theta-35"
model = AutoModelForCausalLM.from_pretrained(
model_name,
torch_dtype="auto",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)
prompt = "How many planets are in our solar system? Explain your reasoning."
messages = [
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
**model_inputs,
max_new_tokens=32768,
temperature=0.6,
top_p=0.95,
top_k=30
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)
使用指南
为了让 Theta-35 达到最佳性能,我们建议采用以下设置:
-
强制输出深思熟虑的结果:确保模型以 "<reasoning>\n" 开头,以促进逐步思考,从而提高输出质量。如果使用 apply_chat_template
并将 add_generation_prompt
设置为 True
,则会自动实现这一点。
-
采样参数:
- 使用 Temperature=0.6 和 TopP=0.95 代替贪心解码,以避免重复。
- 使用 20 到 40 之间的 TopK 来过滤掉罕见的标记出现,同时保持多样性。
-
标准化输出格式:我们建议在进行基准测试时使用提示来标准化模型输出。
- 数学问题:在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多项选择题:在提示中添加 "Please show your choice in the
answer
field with only the choice letter, e.g.,\"answer\": \"C\"
."。
-
处理长输入:对于超过 32,768 个标记的输入,启用滑动窗口注意力,以提高模型有效处理长序列的能力。
对于支持的框架,可以在 config.json
中添加以下内容以启用扩展上下文处理:
{
...,
"use_sliding_window": true,
"sliding_window": 32768
}
✨ 主要特性
本仓库包含 Theta-35 模型,它具有以下特点:
- 训练阶段:预训练和后训练(监督微调与强化学习)
- 架构:采用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer
- 参数数量:330 亿
- 非嵌入参数数量:330 亿
- 层数:64
- 注意力头数量(GQA):Q 为 40,KV 为 8
- 上下文长度:完整的 131,072 个标记
- 滑动窗口:32,768 个标记
注意:为获得最佳体验,请在部署 Theta 模型之前查看使用指南。
如需更多详细信息,请参考我们的文档。
📦 安装指南
Theta-35 需要最新版本的 Hugging Face transformers
。我们建议使用 4.43.1 或更高版本。
使用较旧版本的 transformers 时,可能会遇到以下错误:
KeyError: 'theta'
🔧 技术细节
Theta-35 在各种推理任务中表现卓越,包括:
- 数学推理
- 逻辑演绎
- 多步问题解决
- 代码理解与生成
- 科学推理
详细的评估结果请参考我们的文档。
📄 许可证
本项目采用 Apache-2.0 许可证。
📚 引用
如果您觉得我们的工作有帮助,请随意引用:
@misc{theta35,
title = {Theta-35: Advanced Reasoning in Large Language Models},
url = {https://www.svector.co.in/models/theta-35},
author = {SVECTOR Team},
month = {March},
year = {2025}
}
@article{theta,
title={Theta Technical Report},
author={SVECTOR Research Team},
year={2025}
}