🚀 GLM-4-Z1-Rumination-32B-0414
GLM-4-Z1-Rumination-32B-0414是一款強大的文本生成模型,屬於GLM系列的新一代開源模型。它具有320億參數,性能可與OpenAI的GPT系列和DeepSeek的V3/R1系列相媲美,還支持便捷的本地部署。該模型在多個領域表現出色,尤其在深度推理和複雜任務解決方面具有顯著優勢。
✨ 主要特性
- 高性能表現:GLM-4-32B-0414系列模型在工程代碼、Artifact生成、函數調用、搜索式問答和報告生成等領域取得了良好的效果,部分基準測試結果甚至可與GPT-4o和DeepSeek-V3-0324(671B)等更大規模的模型相抗衡。
- 深度思考能力:GLM-Z1-32B-0414是基於GLM-4-32B-0414開發的推理模型,通過冷啟動和擴展強化學習,以及在數學、代碼和邏輯任務上的進一步訓練,顯著提升了數學能力和解決複雜任務的能力。
- 反覆思考能力:GLM-Z1-Rumination-32B-0414是具有反覆思考能力的深度推理模型,在深度思考過程中集成了搜索工具,能夠處理更開放和複雜的問題,在研究型寫作和複雜檢索任務中表現出顯著的改進。
- 小模型大能力:GLM-Z1-9B-0414雖然規模較小,但在數學推理和一般任務中仍表現出出色的能力,在同規模的開源模型中處於領先水平,為資源受限的場景提供了高效的選擇。
📦 安裝指南
使用該模型需要確保 transformers
庫的版本大於等於4.51.3:
pip install transformers>=4.51.3
💻 使用示例
基礎用法
from transformers import AutoModelForCausalLM, AutoTokenizer
MODEL_PATH = "THUDM/GLM-Z1-Rumination-32B-0414"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")
message = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]
inputs = tokenizer.apply_chat_template(
message,
return_tensors="pt",
add_generation_prompt=True,
return_dict=True,
).to(model.device)
generate_kwargs = {
"input_ids": inputs["input_ids"],
"attention_mask": inputs["attention_mask"],
"temperature": 0.95,
"top_p": 0.7,
"do_sample": True,
}
out = model.generate(**generate_kwargs)
print(tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True))
高級用法
from transformers import AutoModelForCausalLM, AutoTokenizer
import re
import json
MODEL_PATH = "THUDM/GLM-4-Z1-Rumination-32B-0414"
tokenizer = AutoTokenizer.from_pretrained(MODEL_PATH)
model = AutoModelForCausalLM.from_pretrained(MODEL_PATH, device_map="auto")
messages = [{"role": "user", "content": "Let a, b be positive real numbers such that ab = a + b + 3. Determine the range of possible values for a + b."}]
generate_kwargs = {
"temperature": 0.95,
"top_p": 0.7,
"do_sample": True,
"max_new_tokens": 16384
}
def get_assistant():
inputs = tokenizer.apply_chat_template(
messages,
return_tensors="pt",
add_generation_prompt=True,
return_dict=True,
).to(model.device)
out = model.generate(input_ids=inputs["input_ids"], **generate_kwargs)
return tokenizer.decode(out[0][inputs["input_ids"].shape[1]:], skip_special_tokens=True).strip()
def get_observation(function_name, args):
content = None
if function_name == "search":
mock_search_res = [
{"title": "t1", "url":"url1", "snippet": "snippet_content_1"},
{"title": "t2", "url":"url2", "snippet": "snippet_content_2"}
]
content = "\n\n".join([f"【{i}†{res['title']}†{res['url']}\n{res['snippet']}】"] for i, res in enumerate(mock_search_res))
elif function_name == "click":
mock_click_res = "main content"
content = mock_click_res
elif function_name == "open":
mock_open_res = "main_content"
content = mock_open_res
else:
raise ValueError("unspport function name!")
return content
def get_func_name_args(llm_text):
function_call = re.sub(r'.*?</think>', '', llm_text, flags=re.DOTALL)
function_call = json.loads(function_call)
action = function_call['name']
params = function_call['arguments']
return action, params
def pipeline():
end_str = "{\"name\": \"finish\", \"arguments\": {}}"
response = get_assistant()
messages.append({"role": "assistant", "content": response})
max_turns, turns = 35, 1
while not response.endswith(end_str) and turns < max_turns:
action, params = get_func_name_args(response)
observation = get_observation(action, params)
messages.append({"role": "observation", "content": observation})
response = get_assistant()
messages.append({"role": "assistant", "content": response})
turns += 1
if response.endswith(end_str):
final_answer = get_assistant()
else:
final_answer = None
return final_answer
pipeline()
📚 詳細文檔
函數調用
默認情況下,該模型目前支持以下 function
調用:
search
:使用關鍵字進行搜索並返回搜索結果
click
:點擊搜索結果中的特定網頁以查看詳細信息
open
:打開固定的URL以查看詳細內容
finish
:完成信息收集並開始寫作
📄 許可證
本項目採用MIT許可證。