GLM-4.1V-9B-Thinking開源視覺語言模型 - 支持多模態理解推理與高效推理

首頁

GLM 4.1V 9B Thinking AWQ

由dengcao開發

GLM-4.1V-9B-Thinking是一款強大的視覺語言模型（VLM），專注於多模態理解和推理，通過AWQ量化版本提供高效推理能力。

文本生成圖像

Transformers

開源協議:MIT #多模態推理 #強化學習優化 #64k長上下文

下載量 882

發布時間 : 7/3/2025

模型概述

該模型基於GLM-4-9B-0414基礎模型，引入'思維範式'和強化學習，顯著提升了在複雜任務中的推理能力，支持64k上下文長度和4K圖像分辨率處理。

模型特點

強大的推理能力

通過'思維範式'和強化學習，模型在複雜任務中展現出卓越的推理能力。

長上下文支持

支持64k的上下文長度，適合處理長文檔和複雜對話。

高分辨率圖像處理

支持任意寬高比和最高4K的圖像分辨率處理。

多模態輸入

支持圖像、視頻、PDF和PPT等多種模態的輸入。

模型能力

多模態理解

複雜推理

圖像分析

視頻分析

文檔處理

使用案例

學術研究

學術基準測試

用於評估模型在多模態任務中的性能。

在18個基準任務上與甚至超過720億參數的Qwen-2.5-VL-72B。

智能體應用

GUI智能體

處理模型響應並構建用於GUI智能體用例的提示。

支持移動、桌面和Web環境的策略集成。

🚀 GLM-4.1V-9B-Thinking-AWQ

本倉庫託管了GLM-4.1V-9B-Thinking的AWQ量化版本。GLM-4.1V-9B-Thinking是一款強大的視覺語言模型（VLM），旨在實現多模態理解和推理。

該模型在論文GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning中被提出。

官方GitHub倉庫：https://github.com/THUDM/GLM-4.1V-Thinking

基礎模型：ZhipuAI/GLM-4.1V-9B-Thinking

🚀 快速開始

模型更新日期

2025-07-03
1. 首次commit
2. 確定支持1、2、4卡的`tensor-parallel-size`啟動

依賴項

vllm==0.9.2

⚠️ 重要提示

2025年7月3日的臨時安裝命令如下：

pip3 install -r requirements.txt
git clone https://github.com/zRzRzRzRzRzRzR/vllm.git
cd vllm
git checkout glm4_1-v
VLLM_USE_PRECOMPILED=1 pip install --editable .

模型列表

文件大小	最近更新時間
`6.9GB`	`2025-07-03`

模型下載

from modelscope import snapshot_download
snapshot_download('dengcao/GLM-4.1V-9B-Thinking-AWQ', cache_dir="本地路徑")

👋 加入我們的 Discord
📖 查看GLM-4.1V-9B-Thinking 論文。
💡 在 Hugging Face 或 ModelScope 上嘗試GLM-4.1V-9B-Thinking的在線演示。
📍 在智譜基礎模型開放平臺使用GLM-4.1V-9B-Thinking API。

✨ 主要特性

視覺語言模型（VLM）已成為智能系統的基礎組成部分。隨著現實世界中的AI任務日益複雜，VLM必須超越基本的多模態感知，提升其在複雜任務中的推理能力。這包括提高準確性、全面性和智能性，以實現複雜問題解決、長上下文理解和多模態智能體等應用。

基於GLM-4-9B-0414基礎模型，我們推出了新的開源VLM模型GLM-4.1V-9B-Thinking，旨在探索視覺語言模型推理能力的上限。通過引入“思維範式”並利用強化學習，該模型顯著提升了其能力。在100億參數的VLM中，它達到了領先水平，在18個基準任務上與甚至超過了720億參數的Qwen-2.5-VL-72B。我們還開源了基礎模型GLM-4.1V-9B-Base，以支持對VLM能力邊界的進一步研究。

與上一代模型CogVLM2和GLM-4V系列相比，GLM-4.1V-Thinking有以下改進：

該系列中首個專注於推理的模型，不僅在數學領域，而且在各個子領域都取得了世界領先的性能。
支持64k上下文長度。
處理任意寬高比和最高4K的圖像分辨率。
提供支持中英文雙語使用的開源版本。

📦 安裝指南

依賴項

vllm==0.9.2

⚠️ 重要提示

2025年7月3日的臨時安裝命令如下：

pip3 install -r requirements.txt
git clone https://github.com/zRzRzRzRzRzRzR/vllm.git
cd vllm
git checkout glm4_1-v
VLLM_USE_PRECOMPILED=1 pip install --editable .

💻 使用示例

模型推理

所有推理腳本都位於inference文件夾中，包括：

trans_infer_cli.py：一個使用transformers庫作為後端的命令行交互腳本，支持多輪對話。
trans_infer_gradio.py：一個基於Gradio的Web UI腳本，使用transformers後端，支持圖像、視頻、PDF和PPT等多模態輸入。
使用vllm的OpenAI兼容API服務，vllm_api_request.py中提供了一個簡單的請求示例。

vllm serve THUDM/GLM-4.1V-9B-Thinking --limit-mm-per-prompt '{"image":32}' --allowed-local-media-path /

如果未指定--limit-mm-per-prompt，則僅支持1張圖像。該模型每個輸入最多支持1個視頻或300張圖像，不支持同時輸入圖像和視頻。
必須設置--allowed-local-media-path以允許訪問本地多模態輸入。
trans_infer_bench：用於GLM-4.1V-9B-Thinking推理的學術基準測試腳本。主要特點：
- 如果思考超過8192個標記，會自動中斷思考並追加</think><answer>以提示模型生成最終答案。
- 演示了基於視頻的輸入，對於其他模態，需要進行修改。
- 僅提供了transformers版本。對於vllm，需要自定義實現以支持此邏輯。
vllm_request_gui_agent.py：此腳本演示瞭如何處理模型響應並構建用於GUI智能體用例的提示。它涵蓋了移動、桌面和Web環境的策略，可集成到您的應用框架中。有關GUI智能體的詳細文檔，請參閱此文件。
對於昇騰NPU推理，請查看此處。

模型微調

LLaMA-Factory現在支持對該模型進行微調。以下是一個使用兩張圖像的示例數據集。請像下面這樣在finetune.json文件中準備您的數據集：

[
  {
    "messages": [
      {
        "content": "<image>Who are they?",
        "role": "user"
      },
      {
        "content": "<think>
User ask me to observe the image and get the answer. I Know they are Kane and Gretzka from Bayern Munich.</think>
<answer>They're Kane and Gretzka from Bayern Munich.</answer>",
        "role": "assistant"
      },
      {
        "content": "<image>What are they doing?",
        "role": "user"
      },
      {
        "content": "<think>
I need to observe what this people are doing. Oh, They are celebrating on the soccer field.</think>
<answer>They are celebrating on the soccer field.</answer>",
        "role": "assistant"
      }
    ],
    "images": [
      "mllm_demo_data/1.jpg",
      "mllm_demo_data/2.jpg"
    ]
  }
]

<think> ... </think>內的內容將不存儲在對話歷史中，也不會在微調期間使用。
<image>標籤將在預處理期間被實際圖像數據替換。

準備好數據集後，您可以使用標準的LLaMA-Factory管道進行微調。

📚 詳細文檔

模型信息

模型下載鏈接

模型	下載鏈接	模型類型
GLM-4.1V-9B-Thinking	🤗 Hugging Face 🤖 ModelScope	推理模型
GLM-4.1V-9B-Base	🤗 Hugging Face 🤖 ModelScope	基礎模型

該模型的算法實現可在官方transformers倉庫中找到。

運行時要求

推理

設備（單GPU）	框架	最小內存	速度	精度
NVIDIA A100	transformers	22GB	14 - 22 Tokens / s	BF16
NVIDIA A100	vLLM	22GB	60 - 70 Tokens / s	BF16

微調

以下結果基於使用LLaMA-Factory工具包進行的圖像微調。

設備（集群）	策略	最小內存 / GPU數量	批量大小（每個GPU）	凍結設置
NVIDIA A100	LORA	21GB / 1 GPU	1	凍結VIT
NVIDIA A100	FULL ZERO2	280GB / 4 GPUs	1	凍結VIT
NVIDIA A100	FULL ZERO3	192GB / 4 GPUs	1	凍結VIT
NVIDIA A100	FULL ZERO2	304GB / 4 GPUs	1	不凍結
NVIDIA A100	FULL ZERO3	210GB / 4 GPUs	1	不凍結

注意：使用Zero2進行微調可能會導致零損失，建議使用Zero3進行穩定訓練。

基準性能

基於GLM-4-9B-0414基礎模型，我們推出了新的開源VLM模型GLM-4.1V-9B-Thinking，它引入了“思維”範式並利用課程採樣強化學習（RLCS）全面提升了模型能力。在100億參數的視覺語言模型中，它達到了領先水平，在18個基準任務上與甚至超過了720億參數的Qwen-2.5-VL。我們還開源了基礎模型GLM-4.1V-9B-Base，以支持對視覺語言模型前沿的進一步研究。

bench

🔧 技術細節

本倉庫代碼基於GLM-4-9B-0414基礎模型，通過引入“思維範式”和強化學習的方式，提升了模型的推理能力。具體實現細節可參考官方transformers倉庫。

📄 許可證

本倉庫中的代碼根據Apache License 2.0發佈。
模型GLM-4.1V-9B-Thinking和GLM-4.1V-9B-Base均根據MIT License許可。

引用

如果您認為我們的工作有幫助，請考慮引用以下論文：

@misc{glmvteam2025glm41vthinkingversatilemultimodalreasoning,
      title={GLM-4.1V-Thinking: Towards Versatile Multimodal Reasoning with Scalable Reinforcement Learning}, 
      author={GLM-V Team and Wenyi Hong and Wenmeng Yu and Xiaotao Gu and Guo Wang and Guobing Gan and Haomiao Tang and Jiale Cheng and Ji Qi and Junhui Ji and Lihang Pan and Shuaiqi Duan and Weihan Wang and Yan Wang and Yean Cheng and Zehai He and Zhe Su and Zhen Yang and Ziyang Pan and Aohan Zeng and Baoxu Wang and Boyan Shi and Changyu Pang and Chenhui Zhang and Da Yin and Fan Yang and Guoqing Chen and Jiazheng Xu and Jiali Chen and Jing Chen and Jinhao Chen and Jinghao Lin and Jinjiang Wang and Junjie Chen and Leqi Lei and Letian Gong and Leyi Pan and Mingzhi Zhang and Qinkai Zheng and Sheng Yang and Shi Zhong and Shiyu Huang and Shuyuan Zhao and Siyan Xue and Shangqin Tu and Shengbiao Meng and Tianshu Zhang and Tianwei Luo and Tianxiang Hao and Wenkai Li and Wei Jia and Xin Lyu and Xuancheng Huang and Yanling Wang and Yadong Xue and Yanfeng Wang and Yifan An and Yifan Du and Yiming Shi and Yiheng Huang and Yilin Niu and Yuan Wang and Yuanchang Yue and Yuchen Li and Yutao Zhang and Yuxuan Zhang and Zhanxiao Du and Zhenyu Hou and Zhao Xue and Zhengxiao Du and Zihan Wang and Peng Zhang and Debing Liu and Bin Xu and Juanzi Li and Minlie Huang and Yuxiao Dong and Jie Tang},
      year={2025},
      eprint={2507.01006},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2507.01006}, 
}