🚀 GLM-4.1V-9B-Thinking
GLM-4.1V-9B-Thinking是基于视觉语言模型的创新成果,旨在提升复杂任务中的推理能力,在多领域基准测试中表现出色,为智能系统的发展提供了有力支持。
📄 查看GLM-4.1V-9B-Thinking 论文。
🧪 尝试GLM-4.1V-9B-Thinking的 Hugging Face 或 ModelScope 在线演示。
💻 在 智谱基础模型开放平台 使用GLM-4.1V-9B-Thinking API。
📚 详细文档
模型介绍
视觉语言模型(VLMs)已成为智能系统的基础组件。随着现实世界中的AI任务日益复杂,VLMs必须超越基本的多模态感知,提升其在复杂任务中的推理能力。这包括提高准确性、全面性和智能性,以实现复杂问题解决、长上下文理解和多模态智能体等应用。
基于 GLM-4-9B-0414 基础模型,我们推出了新的开源视觉语言模型 GLM-4.1V-9B-Thinking,旨在探索视觉语言模型推理能力的上限。通过引入“思维范式”并利用强化学习,该模型显著提升了其能力。在100亿参数的视觉语言模型中,它达到了最先进的性能,在18项基准测试任务中与甚至超过了720亿参数的Qwen-2.5-VL-72B。我们还开源了基础模型GLM-4.1V-9B-Base,以支持对视觉语言模型能力边界的进一步研究。

与上一代模型CogVLM2和GLM-4V系列相比,GLM-4.1V-Thinking 具有以下改进:
- 该系列中首个专注于推理的模型,不仅在数学领域,而且在各个子领域都取得了世界领先的性能。
- 支持 64k 上下文长度。
- 处理 任意宽高比 且最高支持 4K 图像分辨率。
- 提供支持 中英文双语 使用的开源版本。
基准测试性能
通过引入思维链推理范式,GLM-4.1V-9B-Thinking显著提高了答案的准确性、丰富性和可解释性。它全面超越了传统的非推理视觉模型。在28项基准测试任务中,它在23项任务中在100亿参数级别模型中取得了最佳性能,甚至在18项任务中超过了720亿参数的Qwen-2.5-VL-72B。

🚀 快速开始
快速推理
这是一个使用 transformers
库进行单图像推理的简单示例。
首先,从源代码安装 transformers
库:
pip install git+https://github.com/huggingface/transformers.git
然后,运行以下代码:
from transformers import AutoProcessor, Glm4vForConditionalGeneration
import torch
MODEL_PATH = "THUDM/GLM-4.1V-9B-Thinking"
messages = [
{
"role": "user",
"content": [
{
"type": "image",
"url": "https://upload.wikimedia.org/wikipedia/commons/f/fa/Grayscale_8bits_palette_sample_image.png"
},
{
"type": "text",
"text": "describe this image"
}
],
}
]
processor = AutoProcessor.from_pretrained(MODEL_PATH, use_fast=True)
model = Glm4vForConditionalGeneration.from_pretrained(
pretrained_model_name_or_path=MODEL_PATH,
torch_dtype=torch.bfloat16,
device_map="auto",
)
inputs = processor.apply_chat_template(
messages,
tokenize=True,
add_generation_prompt=True,
return_dict=True,
return_tensors="pt"
).to(model.device)
generated_ids = model.generate(**inputs, max_new_tokens=8192)
output_text = processor.decode(generated_ids[0][inputs["input_ids"].shape[1]:], skip_special_tokens=False)
print(output_text)
有关视频推理、网页演示部署等更多代码,请查看我们的 GitHub。
📄 许可证
本项目采用MIT许可证。
属性 |
详情 |
模型类型 |
图像文本到文本 |
基础模型 |
THUDM/GLM-4-9B-0414 |
库名称 |
transformers |
标签 |
推理 |