GLM-Z1-Rumination-32B-0414開源深度推理模型 - 解決開放複雜問題實用之選

首頁

GLM Z1 Rumination 32B 0414

由THUDM開發

GLM-Z1-Rumination-32B-0414是一款具備反芻能力的深度推理模型，基於320億參數的GLM-4-32B-0414開發，專注於解決開放和複雜問題。

大型語言模型

Transformers

支持多種語言開源協議:MIT #深度推理反芻 #複雜任務求解 #研究式寫作

下載量 1,359

發布時間 : 4/13/2025

模型概述

該模型通過長時間的深度思考和整合搜索工具處理複雜任務，特別擅長研究式寫作和複雜檢索任務。

模型特點

深度思考能力

通過冷啟動和擴展強化學習訓練，顯著提升數學能力和複雜任務解決能力。

反芻能力

通過更長時間的深度思考解決開放和複雜問題，整合搜索工具處理複雜任務。

多規則獎勵引導

利用多規則獎勵引導和擴展端到端強化學習進行訓練，提升模型性能。

模型能力

文本生成

數學推理

複雜任務解決

研究式寫作

複雜檢索

函數調用

使用案例

學術研究

城市AI發展對比分析

撰寫兩座城市AI發展對比分析及其未來發展計劃。

在研究式寫作和複雜檢索任務上表現出顯著提升。

工程代碼

代碼生成

生成工程代碼和函數調用。

在工程代碼和函數調用方面表現良好。

🚀 GLM-4-Z1-Rumination-32B-0414

GLM-4-Z1-Rumination-32B-0414是一款強大的文本生成模型，屬於GLM系列的新一代開源模型。它具有320億參數，性能可與OpenAI的GPT系列和DeepSeek的V3/R1系列相媲美，還支持便捷的本地部署。該模型在多個領域表現出色，尤其在深度推理和複雜任務解決方面具有顯著優勢。

✨ 主要特性

高性能表現：GLM-4-32B-0414系列模型在工程代碼、Artifact生成、函數調用、搜索式問答和報告生成等領域取得了良好的效果，部分基準測試結果甚至可與GPT-4o和DeepSeek-V3-0324（671B）等更大規模的模型相抗衡。
深度思考能力：GLM-Z1-32B-0414是基於GLM-4-32B-0414開發的推理模型，通過冷啟動和擴展強化學習，以及在數學、代碼和邏輯任務上的進一步訓練，顯著提升了數學能力和解決複雜任務的能力。
反覆思考能力：GLM-Z1-Rumination-32B-0414是具有反覆思考能力的深度推理模型，在深度思考過程中集成了搜索工具，能夠處理更開放和複雜的問題，在研究型寫作和複雜檢索任務中表現出顯著的改進。
小模型大能力：GLM-Z1-9B-0414雖然規模較小，但在數學推理和一般任務中仍表現出出色的能力，在同規模的開源模型中處於領先水平，為資源受限的場景提供了高效的選擇。

📦 安裝指南

使用該模型需要確保 transformers 庫的版本大於等於4.51.3：

pip install transformers>=4.51.3

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_PATH = "THUDM/GLM-Z1-Rumination-32B-0414"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")

message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]

inputs = tokenizer.apply_chat_template(
    message,
    return_tensors="pt",
    add_generation_prompt=True,
    return_dict=True,
).to(model.device)

generate_kwargs = {
    "input_ids": inputs["input_ids"],
    "attention_mask": inputs["attention_mask"],
    "temperature": 0.95,
    "top_p": 0.7,
    "do_sample": True,
}
out = model.generate(**generate_kwargs)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

高級用法

from transformers import AutoModelForCausalLM, AutoTokenizer
import re
import json

MODEL_PATH = "THUDM/GLM-4-Z1-Rumination-32B-0414"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")

messages = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]

generate_kwargs = {
    "temperature": 0.95,
    "top_p": 0.7,
    "do_sample": True,
    "max_new_tokens": 16384
}

def get_assistant():
    inputs = tokenizer.apply_chat_template(
        messages,
        return_tensors="pt",
        add_generation_prompt=True,
        return_dict=True,
    ).to(model.device)
    out = model.generate(input_ids=inputs["input_ids"], **generate_kwargs)
    return tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True).strip()

def get_observation(function_name, args):
    content = None
    if function_name == "search":
        mock_search_res = [
            {"title": "t1", "url":"url1", "snippet": "snippet_content_1"},
            {"title": "t2", "url":"url2", "snippet": "snippet_content_2"}
        ]
        content = "\n\n".join([f"【{i}†{res['title']}†{res['url']}\n{res['snippet']}】"] for i, res in enumerate(mock_search_res))
    elif function_name == "click":
        mock_click_res = "main content"
        content = mock_click_res
    elif function_name == "open":
        mock_open_res = "main_content"
        content = mock_open_res
    else:
        raise ValueError("unspport function name!")
    return content
        
def get_func_name_args(llm_text):
    function_call = re.sub(r'.*?</think>', '', llm_text, flags=re.DOTALL)
    function_call = json.loads(function_call)
    action = function_call['name']
    params = function_call['arguments']
    return action, params

def pipeline():
    end_str = "{\"name\": \"finish\", \"arguments\": {}}"
    response = get_assistant()
    messages.append({"role": "assistant", "content": response})
    max_turns, turns = 35, 1
    while not response.endswith(end_str) and turns < max_turns:
        action, params = get_func_name_args(response)
        observation = get_observation(action, params)
        messages.append({"role": "observation", "content": observation})
        response = get_assistant()
        messages.append({"role": "assistant", "content": response})
        turns += 1
        
    if response.endswith(end_str):
        final_answer = get_assistant()
    else:
        final_answer = None
    return final_answer

pipeline()