GLM-Z1-9B-0414開源模型 - 免費部署，資源受限場景下實現出色數學推理

首頁

GLM Z1 9B 0414

由THUDM開發

GLM-4-Z1-9B-0414是GLM家族的新一代開源模型，具備優秀的數學推理與通用能力，適合資源受限場景下的輕量部署。

大型語言模型

Transformers

支持多種語言開源協議:MIT #深度推理 #數學代碼增強 #輕量部署

下載量 3,456

發布時間 : 4/8/2025

模型概述

GLM-4-Z1-9B-0414是一個9B參數規模的開源模型，展現出優秀的數學推理與通用能力，整體性能居同規模開源模型領先水平。

模型特點

輕量部署

9B參數規模，適合資源受限場景下的輕量部署。

數學推理

展現出優秀的數學推理能力，適合解決數學、代碼、邏輯類任務。

通用能力

整體性能居同規模開源模型領先水平，具備良好的通用能力。

模型能力

文本生成

數學推理

代碼生成

邏輯推理

使用案例

數學問題解決

數學題目解答

解決複雜的數學題目，如求取值範圍等。

在數學推理任務中表現優異。

代碼生成

工程代碼生成

生成工程代碼，支持函數調用等任務。

在工程代碼生成任務中表現良好。

🚀 GLM-4-Z1-9B-0414

GLM-4-Z1-9B-0414是GLM系列的新一代開源模型，具有強大的文本生成能力。它在多個領域表現出色，尤其在數學推理和一般任務中展現出優秀的性能，為用戶提供了高效且強大的解決方案。

✨ 主要特性

GLM家族迎來了新一代開源模型——GLM-4-32B-0414系列，該系列模型擁有320億參數。其性能可與OpenAI的GPT系列以及DeepSeek的V3/R1系列相媲美，並且支持非常便捷的本地部署功能。GLM-4-32B-Base-0414在15T高質量數據上進行了預訓練，其中包含大量推理型合成數據，為後續的強化學習擴展奠定了基礎。在後續訓練階段，除了針對對話場景進行人類偏好對齊之外，還運用拒絕採樣和強化學習等技術，提升了模型在指令遵循、工程代碼和函數調用方面的性能，強化了執行代理任務所需的核心能力。GLM-4-32B-0414在工程代碼、工件生成、函數調用、基於搜索的問答和報告生成等領域取得了良好的效果。在某些基準測試中，其表現甚至可與GPT-4o和DeepSeek-V3-0324（671B）等更大規模的模型相抗衡。

GLM-Z1-32B-0414是一款具備深度思考能力的推理模型。它基於GLM-4-32B-0414，通過冷啟動和擴展強化學習進行開發，並在涉及數學、代碼和邏輯的任務上對模型進行了進一步訓練。與基礎模型相比，GLM-Z1-32B-0414顯著提升了數學能力和解決複雜任務的能力。在訓練過程中，還引入了基於成對排序反饋的通用強化學習，進一步增強了模型的通用能力。

GLM-Z1-Rumination-32B-0414是一款具有深度思考能力的深度推理模型（以OpenAI的深度研究為基準）。與典型的深度思考模型不同，該思考模型採用更長時間的深度思考來解決更開放和複雜的問題（例如，撰寫兩個城市人工智能發展的比較分析及其未來發展規劃）。思考模型在深度思考過程中集成了搜索工具，以處理複雜任務，並通過利用多種基於規則的獎勵來指導和擴展端到端強化學習進行訓練。Z1-Rumination在研究型寫作和複雜檢索任務方面表現出顯著的改進。

最後，GLM-Z1-9B-0414帶來了驚喜。採用上述一系列技術訓練了一個90億參數的小模型，同時保持了開源傳統。儘管規模較小，但GLM-Z1-9B-0414在數學推理和一般任務中仍展現出出色的能力。其整體性能在同規模的開源模型中已處於領先水平。特別是在資源受限的場景下，該模型在效率和效果之間實現了出色的平衡，為尋求輕量級部署的用戶提供了強大的選擇。

📦 安裝指南

使用此模型需確保 transforemrs>=4.51.3。

💻 使用示例

基礎用法

from transformers import AutoModelForCausalLM, AutoTokenizer

MODEL_PATH = "THUDM/GLM-4-Z1-9B-0414"

tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")

message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]

inputs = tokenizer.apply_chat_template(
    message,
    return_tensors="pt",
    add_generation_prompt=True,
    return_dict=True,
).to(model.device)

generate_kwargs = {
    "input_ids": inputs["input_ids"],
    "attention_mask": inputs["attention_mask"],
    "max_new_tokens": 4096,
    "do_sample": False,
}
out = model.generate(**generate_kwargs)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))

📚 詳細文檔

一、採樣參數

屬性	詳情
temperature	推薦值為 0.6，用於平衡創造性和穩定性
top_p	推薦值為 0.95，採樣的累積概率閾值
top_k	推薦值為 40，過濾稀有標記，同時保持多樣性
max_new_tokens	推薦值為 30000，為思考留出足夠的標記

二、強制思考

在第一行添加 <think>\n：確保模型在回覆前進行思考。
使用 chat_template.jinja 時，會自動注入提示以強制執行此行為。

三、對話歷史修剪

僅保留最終用戶可見的回覆。
隱藏的思考內容不應保存到歷史記錄中，以減少干擾，這在 chat_template.jinja 中已經實現。

四、處理長上下文（YaRN）

當輸入長度超過 8192 個標記時，考慮啟用 YaRN（Rope Scaling）。
在支持的框架中，在 config.json 中添加以下代碼片段：

"rope_scaling": {
    "type": "yarn",
    "factor": 4.0,
    "original_max_position_embeddings": 32768
}

靜態 YaRN 適用於所有文本。它可能會稍微降低短文本的性能，因此根據需要啟用。

📄 許可證

本項目採用 MIT 許可證。

📖 引用說明

如果您覺得我們的工作有用，請考慮引用以下論文：

@misc{glm2024chatglm,
      title={ChatGLM: A Family of Large Language Models from GLM-130B to GLM-4 All Tools}, 
      author={Team GLM and Aohan Zeng and Bin Xu and Bowen Wang and Chenhui Zhang and Da Yin and Diego Rojas and Guanyu Feng and Hanlin Zhao and Hanyu Lai and Hao Yu and Hongning Wang and Jiadai Sun and Jiajie Zhang and Jiale Cheng and Jiayi Gui and Jie Tang and Jing Zhang and Juanzi Li and Lei Zhao and Lindong Wu and Lucen Zhong and Mingdao Liu and Minlie Huang and Peng Zhang and Qinkai Zheng and Rui Lu and Shuaiqi Duan and Shudan Zhang and Shulin Cao and Shuxun Yang and Weng Lam Tam and Wenyi Zhao and Xiao Liu and Xiao Xia and Xiaohan Zhang and Xiaotao Gu and Xin Lv and Xinghan Liu and Xinyi Liu and Xinyue Yang and Xixuan Song and Xunkai Zhang and Yifan An and Yifan Xu and Yilin Niu and Yuantao Yang and Yueyan Li and Yushi Bai and Yuxiao Dong and Zehan Qi and Zhaoyu Wang and Zhen Yang and Zhengxiao Du and Zhenyu Hou and Zihan Wang},
      year={2024},
      eprint={2406.12793},
      archivePrefix={arXiv},
      primaryClass={id='cs.CL' full_name='Computation and Language' is_active=True alt_name='cmp-lg' in_archive='cs' is_general=False description='Covers natural language processing. Roughly includes material in ACM Subject Class I.2.7. Note that work on artificial languages (programming languages, logics, formal systems) that does not explicitly address natural-language issues broadly construed (natural-language processing, computational linguistics, speech, text retrieval, etc.) is not appropriate for this area.'}
}