Llama-3.3-70B-Instruct 量子化モデルがオープンソース化 - 多言語対応、商用・研究シーンでの省資源と高パフォーマンス

ホーム

Llama 3.3 70B Instruct Quantized.w4a16

RedHatAIによって開発

Meta-Llama-3.1アーキテクチャに基づく量子化最適化モデルで、多言語をサポートし、商業および研究シーンに適しており、リソース要件を削減しながら高性能を維持します。

大規模言語モデル

Transformers

複数言語対応#多言語大規模言語モデル #INT4量子化最適化 #商業研究汎用

ダウンロード数 19.25k

リリース時間 : 1/2/2025

モデル概要

これは量子化最適化された700億パラメータの大規模言語モデルで、INT4重み量子化により75％のストレージとメモリ要件を削減し、複数の言語の自然言語生成タスクをサポートします。

モデル特徴

効率的な量子化

INT4重み量子化技術を採用し、ディスク容量とGPUメモリ要件を75％削減します。

多言語サポート

英語、フランス語、イタリア語など8つの言語のテキスト生成をサポートします。

高性能維持

量子化後のモデルは複数のベンチマークテストで元のモデル性能の98％以上を維持します。

商業に友好的

商業および研究用途に適しており、複数のデプロイシーンをサポートします。

モデル能力

多言語テキスト生成

対話システム

コード生成

知識問答

テキスト要約

使用事例

対話システム

多言語カスタマーサービスロボット

複数の言語をサポートするスマートカスタマーサービスシステムをデプロイします。

MMLUベンチマークテストで80.62％の正解率を達成しました。

コード生成

プログラミング支援

開発者がコードを生成および最適化するのを支援します。

HumanEval pass@1が83.40％に達しました。

教育研究

学術問答システム

教育分野の知識問答システムを構築します。

ARC Challengeベンチマークテストで49.49％の正解率を達成しました。

🚀 Llama-3.3-70B-Instruct-quantized.w4a16

Llama-3.3-70B-Instruct-quantized.w4a16は、Meta-Llama-3.1アーキテクチャに基づく、多言語に対応した量子化最適化モデルです。商用や研究用途に使用でき、リソース要件を削減しながらも高いパフォーマンスを維持しています。

🚀 クイックスタート

このモデルは、vLLMバックエンドを使用して効率的にデプロイできます。以下にサンプルコードを示します。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16"
number_gpus = 1

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMは、OpenAIと互換性のあるサービスもサポートしています。詳細については、ドキュメントを参照してください。

✨ 主な機能

多言語対応：英語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語、ドイツ語など、多くの言語に対応しています。
モデル最適化：Llama-3.3-70B-Instructの重みをINT4データ型に量子化することで、ディスクサイズとGPUメモリ要件を約75％削減しています。
幅広い用途：商用や研究目的に適しており、アシスタントのようなチャットや、自然言語生成タスクなどに使用できます。

📦 インストール

Red Hat AI Inference Serverへのデプロイ

podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16

詳細については、Red Hat AI Inference Serverドキュメントを参照してください。

Red Hat Enterprise Linux AIへのデプロイ

# Red Hat Registryからdockerを介してモデルをダウンロード
# 注意：--model-dirを指定しない限り、モデルは~/.cache/instructlab/modelsにダウンロードされます
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-3-70b-instruct-quantized-w4a16:1.5

# ilabを介してモデルをサービスとして提供
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w4a16
  
# モデルとの対話
ilab model chat --model ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w4a16

詳細については、Red Hat Enterprise Linux AIドキュメントを参照してください。

Red Hat Openshift AIへのデプロイ

# ServingRuntimeを使用してvllmサーバーを設定
# 保存先: vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # 任意の変更: 一意の名前を設定
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # 必要に応じて変更。AMDの場合は: quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# モデルをvllmサーバーにアタッチ。これはNVIDIA用のテンプレートです
# 保存先: inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-3-70b-instruct-quantized-w4a16 # 任意の変更
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-3-70b-instruct-quantized-w4a16          # モデル名を指定。この値はペイロードでモデルを呼び出す際に使用されます
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# これはモデル固有の値です
          memory: 8Gi		# これはモデル固有の値です
          nvidia.com/gpu: '1'	# これはアクセラレータ固有の値です
        requests:			# このブロックも同様です
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# 上記のServingRuntime名と一致する必要があります
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-3-70b-instruct-quantized-w4a16:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# まず、モデルをデプロイするプロジェクトにいることを確認してください
# oc project <プロジェクト名>

# モデルを実行するために2つのリソースを適用します

# ServingRuntimeを適用
oc apply -f vllm-servingruntime.yaml

# InferenceServiceを適用
oc apply -f qwen-inferenceservice.yaml

# 以下の<推論サービス名>と<クラスターエントリードメイン>を置き換えてください:
# - わからない場合は、`oc get inferenceservice`を実行してURLを探してください。

# curlを使用してサーバーを呼び出す:
curl https://<推論サービス名>-predictor-default.<ドメイン>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-3-70b-instruct-quantized.w4a16",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "How can a bee fly when its wings are so small?"
        }
    ]
}'

詳細については、Red Hat Openshift AIドキュメントを参照してください。

💻 使用例

基本的な使用法

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16"
number_gpus = 1

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

📚 ドキュメント

モデル概要

属性	詳細
モデルタイプ	Meta-Llama-3.1
入力	テキスト
出力	テキスト
モデル最適化	重みをINT4に量子化
想定される使用例	多言語の商用および研究用途に適しており、アシスタントのようなチャットや自然言語生成タスクに使用できます。また、モデル出力を利用して他のモデルを改善することもサポートしており、合成データ生成や蒸留などが含まれます。
想定外の使用状況	適用される法律や規制（貿易コンプライアンス法律を含む）に違反する方法での使用；許容使用ポリシーやLlama 3.3コミュニティライセンスで禁止されている他の方法での使用；英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語以外の言語での使用
リリース日	2024年12月11日
バージョン	1.0
ライセンス	llama3.3
モデル開発者	Red Hat (Neural Magic)

モデル最適化

このモデルは、Llama-3.3-70B-Instructの重みをINT4データ型に量子化することで得られました。この最適化により、各パラメータのビット数が16ビットから4ビットに減少し、ディスクサイズとGPUメモリ要件が約75％削減されました。量子化はTransformerブロック内の線形演算子の重みにのみ適用され、重みは対称的なグループごとのスキームで量子化され、グループサイズは128です。量子化にはGPTQアルゴリズムが使用され、このアルゴリズムはllm-compressorライブラリで実装されています。

作成詳細

このモデルは、llm-compressorを使用して作成されました。以下はコードの断片です。

from transformers import AutoModelForCausalLM, AutoTokenizer
from llmcompressor.modifiers.quantization import GPTQModifier
from llmcompressor.transformers import oneshot
from datasets import load_dataset

# モデルをロード
model_stub = "meta-llama/Llama-3.3-70B-Instruct"
model_name = model_stub.split("/")[-1]

num_samples = 1024
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_stub)

model = AutoModelForCausalLM.from_pretrained(
    model_stub,
    device_map="auto",
    torch_dtype="auto",
)

def preprocess_fn(example):
    return {"text": tokenizer.apply_chat_template(example["messages"], add_generation_prompt=False, tokenize=False)}

ds = load_dataset("neuralmagic/LLM_compression_calibration", split="train")
ds = ds.map(preprocess_fn)

# 量子化アルゴリズムとスキームを構成
recipe = GPTQModifier(
    targets="Linear",
    scheme="W4A16",
    ignore=["lm_head"],
    sequential_targets=["LlamaDecoderLayer"],
    dampening_frac=0.01,
)

# 量子化を適用
oneshot(
    model=model,
    dataset=ds, 
    recipe=recipe,
    max_seq_length=max_seq_len,
    num_calibration_samples=num_samples,
)

# 圧縮されたテンソル形式でディスクに保存
save_path = model_name + "-quantized.w4a16"
model.save_pretrained(save_path)
tokenizer.save_pretrained(save_path)
print(f"モデルとトークナイザーが保存されました: {save_path}")

評価

このモデルは、著名なOpenLLM v1、HumanEval、HumanEval+のベンチマークテストで評価されました。すべてのケースで、モデル出力はvLLMエンジンを使用して生成されました。OpenLLM v1の評価はlm-evaluation-harnessを使用して行われ、利用可能な場合はMeta-Llama-3.1-Instruct-evalsのプロンプトスタイルが使用されました。HumanEvalとHumanEval+の評価は、Neural MagicによるEvalPlusリポジトリのフォークを使用して行われました。

評価詳細

**MMLU** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \ --tasks mmlu_llama \ --fewshot_as_multiturn \ --apply_chat_template \ --num_fewshot 5 \ --batch_size auto ``` **MMLU-CoT** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \ --tasks mmlu_cot_llama \ --apply_chat_template \ --num_fewshot 0 \ --batch_size auto ``` **ARC-Challenge** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \ --tasks arc_challenge_llama \ --apply_chat_template \ --num_fewshot 0 \ --batch_size auto ``` **GSM-8K** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \ --tasks gsm8k_llama \ --fewshot_as_multiturn \ --apply_chat_template \ --num_fewshot 8 \ --batch_size auto ``` **Hellaswag** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \ --tasks hellaswag \ --num_fewshot 10 \ --batch_size auto ``` **Winogrande** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \ --tasks winogrande \ --num_fewshot 5 \ --batch_size auto ``` **TruthfulQA** ``` lm_eval \ --model vllm \ --model_args pretrained="RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \ --tasks truthfulqa \ --num_fewshot 0 \ --batch_size auto ``` **HumanEvalとHumanEval+** *生成* ``` python3 codegen/generate.py \ --model RedHatAI/Llama-3.3-70B-Instruct-quantized.w4a16 \ --bs 16 \ --temperature 0.2 \ --n_samples 50 \ --root "." \ --dataset humaneval ``` *クリーニング* ``` python3 evalplus/sanitize.py \ humaneval/RedHatAI--Llama-3.3-70B-Instruct-quantized.w4a16_vllm_temp_0.2 ``` *評価* ``` evalplus.evaluate \ --dataset humaneval \ --samples humaneval/RedHatAI--Llama-3.3-70B-Instruct-quantized.w4a16_vllm_temp_0.2-sanitized ```

正解率

カテゴリ	ベンチマークテスト	Llama-3.3-70B-Instruct	Llama-3.3-70B-Instruct-quantized.w4a16（このモデル）	回復率
OpenLLM v1	MMLU (5-shot)	81.60	80.62	98.8%
OpenLLM v1	MMLU (CoT, 0-shot)	86.58	85.81	99.1%
OpenLLM v1	ARC Challenge (0-shot)	49.23	49.49	100.5%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	94.16	94.47	100.3%
OpenLLM v1	Hellaswag (10-shot)	86.49	85.97	99.4%
OpenLLM v1	Winogrande (5-shot)	84.77		%
OpenLLM v1	TruthfulQA (0-shot, mc2)	62.75	61.66	98.3%
OpenLLM v1	平均	77.94	77.49	98.3%
コーディング	HumanEval pass@1	83.20	83.40	100.2%
コーディング	HumanEval+ pass@1	78.40	78.60	100.3%