Mistral-Small-3.1-24B-Instruct-2503-GPTQオープンソースモデル - メモリ要件を削減し、簡単にデプロイして使用できる

ホーム

Mistral Small 3.1 24B Instruct 2503 GPTQ 4b 128g

ISTA-DASLabによって開発

本モデルはMistral-Small-3.1-24B-Instruct-2503をINT4量子化したバージョンで、GPTQアルゴリズムにより重みを16ビットから4ビットに削減し、ディスクサイズとGPUメモリ要件を大幅に削減しました。

大規模言語モデル

Safetensors

オープンソースライセンス:Apache-2.0 #INT4量子化 #命令ファインチューニング #マルチモーダル推論

ダウンロード数 21.89k

リリース時間 : 3/20/2025

モデル概要

このモデルはMistral-Small-3.1-24B-Instruct-2503の量子化バージョンで、主にテキスト生成タスクに使用され、マルチモーダル入力（画像+テキスト）をサポートします。量子化後も元のモデルの97.8%の性能を維持しています。

モデル特徴

効率的な量子化

INT4量子化技術を採用し、ディスクスペースとGPUメモリ要件を75%削減

高性能維持

量子化後も元のモデルの97.8%の性能を維持

マルチモーダルサポート

画像とテキストの結合入力を処理可能

効率的な推論

最適化されたモデルはリソース制約環境での展開に適しています

モデル能力

テキスト生成

画像キャプション生成

マルチモーダル理解

命令追従

使用事例

コンテンツ生成

画像キャプション生成

入力画像に基づいて詳細な説明を生成

正確で詳細な画像説明を生成可能

インテリジェントアシスタント

マルチモーダル対話

画像とテキストを含む複雑な対話を処理

視覚情報を含む複雑なクエリを理解し応答可能

🚀 Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g

このモデルは、画像とテキストを入力としてテキストを出力するモデルです。Mistral-Small-3.1-24B-Instruct-2503 の重みをINT4データ型に量子化することで得られ、ディスクサイズとGPUメモリ要件を約75％削減します。

🚀 クイックスタート

このモデルを使用するには、transformers や vLLM パッケージを特定のバージョンに更新する必要があります。詳細は「📦 インストール」と「💻 使用例」を参照してください。

✨ 主な機能

モデルの重みをINT4データ型に量子化することで、ディスクサイズとGPUメモリ要件を大幅に削減。
language_model トランスフォーマーブロック内の線形演算子の重みのみを量子化し、ビジョンモデルとマルチモーダル投影は元の精度のまま維持。
対称的なグループごとのスキームで重みを量子化し、グループサイズは128。
GPTQアルゴリズムを使用して量子化。
モデルチェックポイントは compressed_tensors 形式で保存。

📦 インストール

`transformers` での使用

モデルを transformers で使用するには、パッケージをMistral-3の安定リリース版に更新します。

pip install git+https://github.com/huggingface/transformers@v4.49.0-Mistral-3

`vLLM` での使用

モデルを vLLM で使用するには、パッケージをバージョン vllm>=0.8.0 に更新します。

💻 使用例

基本的な使用法

transformers を介した推論の例を以下に示します。

# pip install accelerate

from transformers import AutoProcessor, AutoModelForImageTextToText
from PIL import Image
import requests
import torch

model_id = "ISTA-DASLab/Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g"

model = AutoModelForImageTextToText.from_pretrained(
    model_id, device_map="auto"
).eval()

processor = AutoProcessor.from_pretrained(model_id)

messages = [
    {
        "role": "system",
        "content": [{"type": "text", "text": "You are a helpful assistant."}]
    },
    {
        "role": "user",
        "content": [
            {"type": "image", "image": "https://huggingface.co/datasets/huggingface/documentation-images/resolve/main/bee.jpg"},
            {"type": "text", "text": "Describe this image in detail."}
        ]
    }
]

inputs = processor.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=True,
    return_dict=True, return_tensors="pt"
).to(model.device, dtype=torch.bfloat16)

input_len = inputs["input_ids"].shape[-1]

with torch.inference_mode():
    generation = model.generate(**inputs, max_new_tokens=100, do_sample=False)
    generation = generation[0][input_len:]

decoded = processor.decode(generation, skip_special_tokens=True)
print(decoded)

📚 ドキュメント

モデル概要

このモデルは、Mistral-Small-3.1-24B-Instruct-2503 の重みをINT4データ型に量子化することで得られました。この最適化により、パラメータごとのビット数が16から4に減少し、ディスクサイズとGPUメモリ要件が約75％削減されます。

language_model トランスフォーマーブロック内の線形演算子の重みのみが量子化され、ビジョンモデルとマルチモーダル投影は元の精度のまま維持されます。重みは対称的なグループごとのスキームで量子化され、グループサイズは128です。量子化にはGPTQアルゴリズムが適用されています。

モデルチェックポイントは compressed_tensors 形式で保存されています。

評価

このモデルは、OpenLLM v1ベンチマークで評価されました。モデルの出力は vLLM エンジンで生成されました。

モデル	ArcC	GSM8k	Hellaswag	MMLU	TruthfulQA-mc2	Winogrande	平均	回復率
Mistral-Small-3.1-24B-Instruct-2503	0.7125	0.8848	0.8576	0.8107	0.6409	0.8398	0.7910	1.0000
Mistral-Small-3.1-24B-Instruct-2503-INT4 (このモデル)	0.7073	0.8711	0.8530	0.8062	0.6252	0.8256	0.7814	0.9878

再現方法

結果は以下のコマンドを使用して得られました。

MODEL=ISTA-DASLab/Mistral-Small-3.1-24B-Instruct-2503-GPTQ-4b-128g
MODEL_ARGS="pretrained=$MODEL,max_model_len=4096,tensor_parallel_size=1,dtype=auto,gpu_memory_utilization=0.80"

lm_eval \
  --model vllm \
  --model_args $MODEL_ARGS \
  --tasks openllm \
  --batch_size auto