ホーム

Llama 4 Scout 17B 16E Instruct Quantized.w4a16

RedHatAIによって開発

Llama-4-Scout-17B-16E-Instructを基にしたINT4重み量子化バージョン、VRAM要件を75%削減、多言語画像テキスト生成タスクをサポート

テキスト生成画像

Safetensors

複数言語対応オープンソースライセンス:その他 #マルチモーダル画像テキスト生成 #INT4効率的な量子化 #エンタープライズレベルの展開最適化

ダウンロード数 11.03k

リリース時間 : 4/25/2025

モデル概要

これは最適化された多言語大規模言語モデルで、テキストと画像入力をサポートし、テキストコンテンツを出力します。モデルはINT4量子化処理されており、リソース要件を大幅に削減しています。

モデル特徴

効率的な量子化

INT4重み量子化技術を採用、VRAM要件を約75%削減、ディスクスペース要件も同様に75%削減

多言語サポート

12言語の画像テキスト生成タスクをサポート、アジアとヨーロッパの主要言語を含む

エンタープライズ展開

レッドハットエンタープライズAIプラットフォームに最適化、RHEL AIとOpenshift AIを含む

モデル能力

テキスト生成

多言語処理

画像テキスト理解

使用事例

コンテンツ作成

多言語コンテンツ生成

異なる言語ユーザー向けに文化的背景に合ったコンテンツを自動生成

12言語の高品質コンテンツを効率的に生成

企業アプリケーション

企業ナレッジQA

企業内に展開するナレッジQAシステム

従業員のクエリに迅速に対応、作業効率を向上

library_name: vllm language:

ar
de
en
es
fr
hi
id
it
pt
th
tl
vi base_model:
meta-llama/Llama-4-Scout-17B-16E-Instruct pipeline_tag: image-text-to-text tags:
facebook
meta
pytorch
llama
llama4
neuralmagic
redhat
llmcompressor
quantized
W4A16
INT4 license: other license_name: llama4

Llama-4-Scout-17B-16E-Instruct-quantized.w4a16

モデル概要

モデルアーキテクチャ: Llama4ForConditionalGeneration
- 入力: テキスト/画像
- 出力: テキスト
モデル最適化:
- 活性化量子化: なし
- 重み量子化: INT4
リリース日: 2025年4月25日
バージョン: 1.0
モデル開発者: Red Hat (Neural Magic)

モデル最適化

このモデルは、Llama-4-Scout-17B-16E-Instructの重みをINT4データ型に量子化して得られました。この最適化により、重みを表すために使用されるビット数が16から4に減少し、GPUメモリ要件が約75%削減されます。重み量子化により、ディスクサイズ要件も約75%削減されます。量子化にはllm-compressorライブラリが使用されています。

デプロイメント

このモデルは、以下の例に示すように、vLLM、Red Hat Enterprise Linux AI、およびOpenshift AIに効率的にデプロイできます。

vLLMへのデプロイ

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-4-Scout-17B-16E-Instruct-quantized.w4a16"
number_gpus = 4

sampling_params = SamplingParams(temperature=0.7, top_p=0.8, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

prompt = "大規模言語モデルについて簡単に説明してください。"

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompt, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサーバー機能もサポートしています。詳細はドキュメントを参照してください。

Red Hat AI推論サーバーへのデプロイ

$ podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-4-Scout-17B-16E-Instruct-quantized.w4a16

詳細はRed Hat AI推論サーバードキュメントを参照してください。

Red Hat Enterprise Linux AIへのデプロイ

# Red Hatレジストリからdocker経由でモデルをダウンロード
# 注: --model-dirが指定されていない場合、モデルは~/.cache/instructlab/modelsにダウンロードされます。
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-4-scout-17b-16e-instruct-quantized-w4a16:1.5

# ilab経由でモデルを提供
ilab model serve --model-path ~/.cache/instructlab/models/llama-4-scout-17b-16e-instruct-quantized-w4a16
  
# モデルとチャット
ilab model chat --model ~/.cache/instructlab/models/llama-4-scout-17b-16e-instruct-quantized-w4a16

詳細はRed Hat Enterprise Linux AIドキュメントを参照してください。

Red Hat Openshift AIへのデプロイ

# ServingRuntimeを使用したvllmサーバーのセットアップ
# 保存先: vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # オプション変更: 一意の名前を設定
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 必要に応じて変更。AMDの場合は: quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# vllmサーバーにモデルをアタッチ。これはNVIDIAテンプレートです
# 保存先: inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: Llama-4-Scout-17B-16E-Instruct-quantized.w4a16 # オプション変更
    serving.kserve.io/deploymentMode: RawDeployment
  name: Llama-4-Scout-17B-16E-Instruct-quantized.w4a16          # モデル名を指定。この値はペイロードでモデルを呼び出す際に使用されます
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# これはモデル固有です
          memory: 8Gi		# これはモデル固有です
          nvidia.com/gpu: '1'	# これはアクセラレータ固有です
        requests:			# このブロックにも同様のコメントが適用されます
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 上記のServingRuntime名と一致する必要があります
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-4-scout-17b-16e-instruct-quantized-w4a16:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# 最初にモデルをデプロイするプロジェクトにいることを確認してください
# oc project <プロジェクト名>

# モデルを実行するために両方のリソースを適用

# ServingRuntimeを適用
oc apply -f vllm-servingruntime.yaml

# InferenceServiceを適用
oc apply -f qwen-inferenceservice.yaml

# 以下の<inference-service-name>と<cluster-ingress-domain>を置き換えてください:
# - 不明な場合は`oc get inferenceservice`を実行してURLを確認してください。

# curlを使用してサーバーを呼び出します:
curl https://<inference-service-name>-predictor-default.<domain>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "Llama-4-Scout-17B-16E-Instruct-quantized.w4a16",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "蜂の羽は小さいのに、どうやって飛べるのですか？"
        }
    ]
}'

詳細はRed Hat Openshift AIドキュメントを参照してください。