Devstral-Small-2505オープンソースモデル - 無料4ビット量子化版、コンシューマ向けハードウェアに適合

ホーム

Devstral Small 2505.w4a16 Gptq

mratsimによって開発

これはmistralai/Devstral-Small-2505モデルに基づく4ビットGPTQ量子化バージョンで、消費者向けハードウェア用に最適化されています。

大規模言語モデル

Safetensors

オープンソースライセンス:Apache-2.0 #4ビットGPTQ量子化 #長シーケンス処理 #コード生成最適化

ダウンロード数 557

リリース時間 : 5/25/2025

モデル概要

このモデルは非対称GPTQ方法を用いて4ビット量子化（重みのみ4ビット、W4A16）を行い、最大シーケンス長が4096の2048個のサンプルを使用してキャリブレーションされ、テキスト生成タスクに適しています。

モデル特徴

4ビットGPTQ量子化

非対称GPTQ方法を用いてモデルを4ビットに量子化（重みのみ4ビット）し、ハードウェア要件を大幅に削減します。

最適化されたキャリブレーション戦略

最大シーケンス長が4096の2048個のサンプルを使用してキャリブレーションを行い、過学習のリスクを低減し収束性を向上させます。

消費者向けハードウェア適合

消費者向けGPU（例：32GB VRAM）での動作に特に最適化されています。

モデル能力

テキスト生成

長シーケンス処理（最大94000トークン）

使用事例

コード関連タスク

コード生成

OpenCodeInstructデータセットを基に訓練され、コード生成タスクに適しています。

🚀 mistralai/Devstral-Small-2505をGPTQで量子化 (4ビット重みのみ、W4A16)

このリポジトリには、非対称GPTQを使用して4ビットに量子化されたmistralai/Devstral-Small-2505が含まれており、一般のコンシューマー向けハードウェアでの使用に適しています。

このモデルは、データセットnvidia/OpenCodeInstructから最大シーケンス長4096の2048サンプルを使用してキャリブレーションされています。

これは私の2つ目のモデルです。ご提案を歓迎します。特に、Mistralのトークナイザの特性を把握するのは難しかったです。

過学習のリスクを最小限に抑え、収束を最大化するために、デフォルトの512/2048ではなく2048/4096が選択されました。

オリジナルモデル:

mistralai/Devstral-Small-2505

🚀 クイックスタート

💻 使用例

基本的な使用法

このモデルはvLLMでテストされています。以下は32GB VRAMのGPUに適したスクリプトです。 GPU VRAMの31.2GiBを予約するため、OSをiGPUで実行する必要があります。

export MODEL="mratsim/Devstral-Small-2505.w4a16-gptq"
vllm serve "${MODEL}" \
  --served-model-name devstral-32b \
  --gpu-memory-utilization 0.95 \
  --enable-prefix-caching \
  --enable-chunked-prefill \
  --max-model-len 94000 \
  --max_num_seqs 256 \
  --tokenizer_mode mistral \
  --generation-config "${MODEL}" \
  --enable-auto-tool-choice --tool-call-parser mistral

🔧 技術詳細

🔩 量子化方法

非対称GPTQの次のレシピでllmcompressorライブラリが使用されています。

default_stage:
  default_modifiers:
    GPTQModifier:
      dampening_frac: 0.005
      config_groups:
        group_0:
          targets: [Linear]
          weights: {num_bits: 4, type: int, symmetric: false, group_size: 128, strategy: group,
            dynamic: false, observer: minmax}
      ignore: [lm_head]