Theta-35開源推理模型 - 免費部署解決複雜思維和深度邏輯分析難題

首頁

Theta 35

由SVECTOR-CORPORATION開發

Theta-35 是 SVECTOR 推出的 Theta 系列中的先進推理模型，專注於複雜思維和推理，在需要深度邏輯分析和多步推理的難題上表現出色。

大型語言模型

Transformers

英語開源協議:Apache-2.0 #深度邏輯推理 #多步問題求解 #長上下文處理

下載量 10.44k

發布時間 : 3/6/2025

模型概述

Theta-35 是一款專注於複雜思維和推理的大語言模型，通過預訓練和後訓練（監督微調與強化學習）優化，在數學推理、邏輯演繹、多步問題解決等任務中表現卓越。

模型特點

高級推理能力

專注於複雜思維和推理，在需要深度邏輯分析和多步推理的難題上表現顯著提升。

長上下文處理

支持完整的 131,072 個標記的上下文長度，並可通過滑動窗口注意力處理超過 32,768 個標記的輸入。

優化的推理設置

建議使用特定的採樣參數（Temperature=0.6, TopP=0.95, TopK=20-40）以獲得最佳性能。

標準化輸出格式

支持通過提示標準化模型輸出格式，便於數學問題和多項選擇題的自動評估。

模型能力

複雜邏輯推理

多步問題解決

數學計算與證明

代碼理解與生成

科學概念解釋

長文本理解與分析

使用案例

教育與研究

數學問題解答

解答需要多步推理的複雜數學問題，並展示完整的解題過程。

在數學推理任務中表現卓越，能夠提供逐步的解題思路。

科學概念解釋

解釋複雜的科學概念和理論，幫助學習者理解。

能夠清晰準確地解釋科學原理，適合教育用途。

編程與開發

代碼理解與生成

理解現有代碼的功能或根據需求生成新的代碼片段。

在代碼理解和生成任務中表現良好，支持多種編程語言。

邏輯分析與決策支持

邏輯問題解決

分析複雜的邏輯問題，提供合理的解決方案。

在邏輯推理任務中表現突出，能夠處理多變量和多條件的複雜問題。

🚀 Theta-35

Theta-35 是 SVECTOR 推出的 Theta 系列中的先進推理模型。與傳統的指令微調模型相比，Theta-35 專注於複雜思維和推理，在下游任務中表現顯著提升，尤其在需要深度邏輯分析和多步推理的難題上表現出色。

🚀 快速開始

以下是一段代碼片段，展示瞭如何加載分詞器和模型，以及如何生成內容：

from transformers import AutoModelForCausalLM, AutoTokenizer

# 直接加載模型和分詞器
model_name = "SVECTOR-CORPORATION/Theta-35"
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    torch_dtype="auto",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained(model_name)

# 準備提示
prompt = "How many planets are in our solar system? Explain your reasoning."
messages = [
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True  # 這將自動添加 "<reasoning>" 標籤
)

# 生成響應
model_inputs = tokenizer([text], return_tensors="pt").to(model.device)
generated_ids = model.generate(
    **model_inputs,
    max_new_tokens=32768,
    temperature=0.6,
    top_p=0.95,
    top_k=30
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

# 解碼並打印響應
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
print(response)

使用指南

為了讓 Theta-35 達到最佳性能，我們建議採用以下設置：

強制輸出深思熟慮的結果：確保模型以 "<reasoning>\n" 開頭，以促進逐步思考，從而提高輸出質量。如果使用 apply_chat_template 並將 add_generation_prompt 設置為 True，則會自動實現這一點。
採樣參數：
- 使用 Temperature=0.6 和 TopP=0.95 代替貪心解碼，以避免重複。
- 使用 20 到 40 之間的 TopK 來過濾掉罕見的標記出現，同時保持多樣性。
標準化輸出格式：我們建議在進行基準測試時使用提示來標準化模型輸出。
- 數學問題：在提示中包含 "Please reason step by step, and put your final answer within \boxed{}."。
- 多項選擇題：在提示中添加 "Please show your choice in the answer field with only the choice letter, e.g.,\"answer\": \"C\"."。
處理長輸入：對於超過 32,768 個標記的輸入，啟用滑動窗口注意力，以提高模型有效處理長序列的能力。

對於支持的框架，可以在 config.json 中添加以下內容以啟用擴展上下文處理：

{
  ...,
  "use_sliding_window": true,
  "sliding_window": 32768
}

✨ 主要特性

本倉庫包含 Theta-35 模型，它具有以下特點：

訓練階段：預訓練和後訓練（監督微調與強化學習）
架構：採用 RoPE、SwiGLU、RMSNorm 和注意力 QKV 偏置的 Transformer
參數數量：330 億
非嵌入參數數量：330 億
層數：64
注意力頭數量（GQA）：Q 為 40，KV 為 8
上下文長度：完整的 131,072 個標記
滑動窗口：32,768 個標記

注意：為獲得最佳體驗，請在部署 Theta 模型之前查看使用指南。

如需更多詳細信息，請參考我們的文檔。

📦 安裝指南

Theta-35 需要最新版本的 Hugging Face transformers。我們建議使用 4.43.1 或更高版本。

使用較舊版本的 transformers 時，可能會遇到以下錯誤：

KeyError: 'theta'

🔧 技術細節

Theta-35 在各種推理任務中表現卓越，包括：

數學推理
邏輯演繹
多步問題解決
代碼理解與生成
科學推理

詳細的評估結果請參考我們的文檔。

📄 許可證

本項目採用 Apache-2.0 許可證。

📚 引用

如果您覺得我們的工作有幫助，請隨意引用：

@misc{theta35,
    title = {Theta-35: Advanced Reasoning in Large Language Models},
    url = {https://www.svector.co.in/models/theta-35},
    author = {SVECTOR Team},
    month = {March},
    year = {2025}
}

@article{theta,
      title={Theta Technical Report}, 
      author={SVECTOR Research Team},
      year={2025}
}