Devstral-Small-2505开源模型 - 免费4位量化版适配消费级硬件

首页

Devstral Small 2505.w4a16 Gptq

由 mratsim 开发

这是一个基于mistralai/Devstral-Small-2505模型的4位GPTQ量化版本，专为消费级硬件优化。

大型语言模型

Safetensors

开源协议:Apache-2.0 #4位GPTQ量化 #长序列处理 #代码生成优化

下载量 557

发布时间 : 5/25/2025

模型简介

该模型采用非对称GPTQ方法进行4位量化(仅权重4位，W4A16)，使用2048个最大序列长度为4096的样本进行校准，适用于文本生成任务。

模型特点

4位GPTQ量化

采用非对称GPTQ方法将模型量化为4位(仅权重4位)，显著降低硬件需求

优化的校准策略

使用2048个最大序列长度为4096的样本进行校准，降低过拟合风险并提高收敛性

消费级硬件适配

特别优化以在消费级GPU(如32GB VRAM)上运行

模型能力

文本生成

长序列处理(最大94000 tokens)

使用案例

代码相关任务

代码生成

基于OpenCodeInstruct数据集训练，适用于代码生成任务

🚀 mistralai/Devstral-Small-2505 采用 GPTQ 进行 4 位量化（仅权重 4 位，W4A16）

本仓库包含使用非对称 GPTQ 量化为 4 位的 mistralai/Devstral-Small-2505 模型，使其适用于消费级硬件。

该模型使用来自数据集 nvidia/OpenCodeInstruct 的 2048 个最大序列长度为 4096 的样本进行校准。

这是我的第二个模型，欢迎大家提出建议。特别是 Mistral 的分词器特性比较难琢磨。

选择 2048/4096 而非默认的 512/2048，是为了最小化过拟合风险并最大化收敛性。

原始模型：

mistralai/Devstral-Small-2505

🚀 快速开始

✨ 主要特性

本仓库的模型使用非对称 GPTQ 量化为 4 位，适配消费级硬件。
采用 2048 个最大序列长度为 4096 的样本进行校准。
选择 2048/4096 以降低过拟合风险并提高收敛性。

📦 安装指南

暂未提供相关安装步骤。

💻 使用示例

基础用法

该模型已使用 vLLM 进行测试，以下是适用于 32GB VRAM GPU 的脚本。它会预留 31.2GiB 的 GPU VRAM，因此你应该在集成显卡上运行操作系统。

export MODEL="mratsim/Devstral-Small-2505.w4a16-gptq"
vllm serve "${MODEL}" \
  --served-model-name devstral-32b \
  --gpu-memory-utilization 0.95 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --max-model-len 94000 \
  --max_num_seqs 256 \
  --tokenizer_mode mistral \
  --generation-config "${MODEL}" \
  --enable-auto-tool-choice --tool-call-parser mistral

🔧 技术细节

量化方法

使用 llmcompressor 库，采用以下非对称 GPTQ 配方：

default_stage:
  default_modifiers:
    GPTQModifier:
      dampening_frac: 0.005
      config_groups:
        group_0:
          targets: [Linear]
          weights: {num_bits: 4, type: int, symmetric: false, group_size: 128, strategy: group,
            dynamic: false, observer: minmax}
      ignore: [lm_head]

并在来自 nvidia/OpenCodeInstruct 的 2048 个样本、序列长度为 4096 的数据上进行校准。

📄 许可证

本项目采用 Apache-2.0 许可证。

属性	详情
基础模型	mistralai/Devstral-Small-2505
训练数据集	nvidia/OpenCodeInstruct
任务类型	文本到文本生成
标签	gptq、vllm、llmcompressor、text-generation-inference