Llama-3.3-70B-Instruct量子化モデルがオープンソース化 - 多言語テキスト生成、商業研究シーンに適している

ホーム

Llama 3.3 70B Instruct Quantized.w8a8

RedHatAIによって開発

これはLlama-3.3-70B-Instructの量子化バージョンのモデルで、多言語のテキスト生成をサポートし、ビジネスや研究のシーンで使用でき、複数のベンチマークテストで優れた性能を発揮します。

大規模言語モデル

Safetensors

複数言語対応#INT8量子化最適化 #多言語対話 #ビジネス研究アシスタント

ダウンロード数 19.02k

リリース時間 : 1/20/2025

モデル概要

Llama-3.3-70B-Instructの量子化バージョンで、INT8量子化により重みと活性化を最適化し、GPUメモリの必要量を削減し、計算スループットを向上させると同時に、元のモデルの性能を維持しています。

モデル特徴

多言語サポート

英語、ドイツ語、フランス語、イタリア語、ポルトガル語、ヒンディー語、スペイン語、タイ語などの多言語のテキスト生成をサポートします。

量子化最適化

重みと活性化にINT8量子化を適用し、GPUメモリの必要量を約50％削減し、行列乗算の計算スループットを約2倍に向上させると同時に、ディスク容量の必要量も約50％削減します。

広範な評価

OpenLLM v1、OpenLLM v2、HumanEval、HumanEval+などの複数のベンチマークテストで評価され、量子化されていないモデルと比較して優れた性能を発揮します。

モデル能力

多言語テキスト生成

ビジネスと研究用途

チャットアシスタントシーン

使用事例

ビジネスと研究

多言語チャットアシスタント

多言語をサポートするチャットアシスタントを構築するために使用され、グローバルなビジネスや研究のシーンに適しています。

多言語MMLUテストで優れた性能を発揮し、回復率はほぼ100％に近いです。

コード生成

コードの生成と補完に使用され、複数のプログラミング言語をサポートします。

HumanEvalとHumanEval+テストでpass@1のスコアが80％を超えています。

🚀 Llama-3.3-70B-Instruct-quantized.w8a8

このモデルはLlama-3.3-70B-Instructの量子化バージョンで、商用や研究用途に適しており、複数言語に対応しています。

🚀 クイックスタート

このモデルは、vLLMバックエンドを使用して効率的にデプロイできます。以下に例を示します。

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8"
number_gpus = 1
max_model_len = 8192

sampling_params = SamplingParams(temperature=0.6, top_p=0.9, max_tokens=256)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "You are a pirate chatbot who always responds in pirate speak!"},
    {"role": "user", "content": "Who are you?"},
]

prompts = tokenizer.apply_chat_template(messages, add_generation_prompt=True, tokenize=False)

llm = LLM(model=model_id, tensor_parallel_size=number_gpus, max_model_len=max_model_len)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLMはOpenAI互換のサービングもサポートしています。詳細はドキュメントを参照してください。

✨ 主な機能

モデルアーキテクチャ: Llama
- 入力: テキスト
- 出力: テキスト
モデル最適化:
- 活性化量子化: INT8
- 重み量子化: INT8
想定使用ケース: 商用および研究用途での複数言語対応。Llama-3.3-70B-Instructと同様に、アシスタントのようなチャットに適しています。
適用範囲外: 適用される法律や規制（貿易コンプライアンス法律を含む）に違反する方法での使用。
リリース日: 2025年1月20日
バージョン: 1.0
モデル開発者: Neural Magic

このモデルは、Llama-3.3-70B-Instructの量子化バージョンです。非量子化モデルとの比較のため、複数のタスクで評価され、多肢選択、数学的推論、自由記述のテキスト生成などのタスクで評価されました。Llama-3.3-70B-Instruct-quantized.w8a8は、OpenLLM v1で99.4%の回復率（利用可能な場合はMetaのプロンプトを使用）、HumanEvalとHumanEval+のpass@1で100%の回復率を達成しています。

モデル最適化

このモデルは、Llama-3.3-70B-Instructの重みと活性化をINT8データ型に量子化することで得られました。この最適化により、重みと活性化を表すビット数が16から8に減少し、GPUメモリ要件が約50%削減され、行列乗算の計算スループットが約2倍に増加します。重みの量子化により、ディスクサイズ要件も約50%削減されます。

トランスフォーマーブロック内の線形演算子の重みと活性化のみが量子化されます。重みは対称的な静的なチャネルごとのスキームで量子化され、各出力チャネル次元に対してINT8と浮動小数点表現の間に固定の線形スケーリング係数が適用されます。活性化は対称的な動的なトークンごとのスキームで量子化され、各トークンに対して実行時にINT8と浮動小数点表現の間の線形スケーリング係数が計算されます。

📦 インストール

このモデルは、以下の環境でのデプロイ方法を提供しています。

Red Hat AI Inference Server

podman run --rm -it --device nvidia.com/gpu=all -p 8000:8000 \
 --ipc=host \
--env "HUGGING_FACE_HUB_TOKEN=$HF_TOKEN" \
--env "HF_HUB_OFFLINE=0" -v ~/.cache/vllm:/home/vllm/.cache \
--name=vllm \
registry.access.redhat.com/rhaiis/rh-vllm-cuda \
vllm serve \
--tensor-parallel-size 8 \
--max-model-len 32768  \
--enforce-eager --model RedHatAI/Llama-3.3-70B-Instruct-quantized.w8a8

詳細はRed Hat AI Inference Serverドキュメントを参照してください。

Red Hat Enterprise Linux AI

# Download model from Red Hat Registry via docker
# Note: This downloads the model to ~/.cache/instructlab/models unless --model-dir is specified.
ilab model download --repository docker://registry.redhat.io/rhelai1/llama-3-3-70b-instruct-quantized-w8a8:1.5

# Serve model via ilab
ilab model serve --model-path ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w8a8
  
# Chat with model
ilab model chat --model ~/.cache/instructlab/models/llama-3-3-70b-instruct-quantized-w8a8

詳細はRed Hat Enterprise Linux AIドキュメントを参照してください。

Red Hat Openshift AI

# Setting up vllm server with ServingRuntime
# Save as: vllm-servingruntime.yaml
apiVersion: serving.kserve.io/v1alpha1
kind: ServingRuntime
metadata:
 name: vllm-cuda-runtime # OPTIONAL CHANGE: set a unique name
 annotations:
   openshift.io/display-name: vLLM NVIDIA GPU ServingRuntime for KServe
   opendatahub.io/recommended-accelerators: '["nvidia.com/gpu"]'
 labels:
   opendatahub.io/dashboard: 'true'
spec:
 annotations:
   prometheus.io/port: '8080'
   prometheus.io/path: '/metrics'
 multiModel: false
 supportedModelFormats:
   - autoSelect: true
     name: vLLM
 containers:
   - name: kserve-container
     image: quay.io/modh/vllm:rhoai-2.20-cuda # CHANGE if needed. If AMD: quay.io/modh/vllm:rhoai-2.20-rocm
     command:
       - python
       - -m
       - vllm.entrypoints.openai.api_server
     args:
       - "--port=8080"
       - "--model=/mnt/models"
       - "--served-model-name={{.Name}}"
     env:
       - name: HF_HOME
         value: /tmp/hf_home
     ports:
       - containerPort: 8080
         protocol: TCP

# Attach model to vllm server. This is an NVIDIA template
# Save as: inferenceservice.yaml
apiVersion: serving.kserve.io/v1beta1
kind: InferenceService
metadata:
  annotations:
    openshift.io/display-name: llama-3-3-70b-instruct-quantized-w8a8 # OPTIONAL CHANGE
    serving.kserve.io/deploymentMode: RawDeployment
  name: llama-3-3-70b-instruct-quantized-w8a8          # specify model name. This value will be used to invoke the model in the payload
  labels:
    opendatahub.io/dashboard: 'true'
spec:
  predictor:
    maxReplicas: 1
    minReplicas: 1
    model:
      modelFormat:
        name: vLLM
      name: ''
      resources:
        limits:
          cpu: '2'			# this is model specific
          memory: 8Gi		# this is model specific
          nvidia.com/gpu: '1'	# this is accelerator specific
        requests:			# same comment for this block
          cpu: '1'
          memory: 4Gi
          nvidia.com/gpu: '1'
      runtime: vllm-cuda-runtime	# must match the ServingRuntime name above
      storageUri: oci://registry.redhat.io/rhelai1/modelcar-llama-3-3-70b-instruct-quantized-w8a8:1.5
    tolerations:
    - effect: NoSchedule
      key: nvidia.com/gpu
      operator: Exists

# make sure first to be in the project where you want to deploy the model
# oc project <project-name>

# apply both resources to run model

# Apply the ServingRuntime
oc apply -f vllm-servingruntime.yaml

# Apply the InferenceService
oc apply -f qwen-inferenceservice.yaml

# Replace <inference-service-name> and <cluster-ingress-domain> below:
# - Run `oc get inferenceservice` to find your URL if unsure.

# Call the server using curl:
curl https://<inference-service-name>-predictor-default.<domain>/v1/chat/completions
        -H "Content-Type: application/json" \
        -d '{
    "model": "llama-3-3-70b-instruct-quantized-w8a8 ",
    "stream": true,
    "stream_options": {
        "include_usage": true
    },
    "max_tokens": 1,
    "messages": [
        {
            "role": "user",
            "content": "How can a bee fly when its wings are so small?"
        }
    ]
}'

詳細はRed Hat Openshift AIドキュメントを参照してください。

📚 ドキュメント

作成

このモデルは、llm-compressorライブラリを使用して作成されました。以下にコード例を示します。

from transformers import AutoTokenizer, AutoModelForCausalLM
from datasets import Dataset
from llmcompressor.transformers import oneshot
from llmcompressor.modifiers.quantization import GPTQModifier
import random

model_id = "meta-llama/Meta-Llama-3.1-8B-Instruct"

num_samples = 1024
max_seq_len = 8192

tokenizer = AutoTokenizer.from_pretrained(model_id)

max_token_id = len(tokenizer.get_vocab()) - 1
input_ids = [[random.randint(0, max_token_id) for _ in range(max_seq_len)] for _ in range(num_samples)]
attention_mask = num_samples * [max_seq_len * [1]]
ds = Dataset.from_dict({"input_ids": input_ids, "attention_mask": attention_mask})

recipe = GPTQModifier(
  targets="Linear",
  scheme="W8A8",
  ignore=["lm_head"],
  dampening_frac=0.01,
)

model = SparseAutoModelForCausalLM.from_pretrained(
  model_id,
  device_map="auto",
)

oneshot(
  model=model,
  dataset=ds,
  recipe=recipe,
  max_seq_length=max_seq_len,
  num_calibration_samples=num_samples,
)

model.save_pretrained("Llama-3.3-70B-Instruct-quantized.w8a8")

評価

このモデルは、よく知られたOpenLLM v1、OpenLLM v2、HumanEval、およびHumanEval+ベンチマークで評価されました。すべてのケースで、モデル出力は vLLMエンジンを使用して生成されました。

OpenLLM v1とv2の評価は、Neural Magicのlm-evaluation-harnessのフォーク（llama_3.1_instructブランチ）を使用して行われました。このバージョンのlm-evaluation-harnessには、Meta-Llama-3.1-Instruct-evalsのプロンプトスタイルに一致するMMLU、ARC-Challenge、およびGSM-8Kのバージョンが含まれており、OpenLLM v2タスクに対するいくつかの修正も含まれています。

HumanEvalとHumanEval+の評価は、Neural MagicのEvalPlusリポジトリのフォークを使用して行われました。

精度

カテゴリ	ベンチマーク	Llama-3.3-70B-Instruct	Llama-3.3-70B-Instruct-quantized.w8a8 (このモデル)	回復率
OpenLLM v1	MMLU (5-shot)	81.60	81.19	99.5%
OpenLLM v1	MMLU (CoT, 0-shot)	86.58	85.92	99.2%
OpenLLM v1	ARC Challenge (0-shot)	49.23	48.04	97.6%
OpenLLM v1	GSM-8K (CoT, 8-shot, strict-match)	94.16	94.01	99.8%
OpenLLM v1	Hellaswag (10-shot)	86.49	86.47	100.0%
OpenLLM v1	Winogrande (5-shot)	84.77	83.74	98.8%
OpenLLM v1	TruthfulQA (0-shot, mc2)	62.75	63.09	99.5%
OpenLLM v1	Average	77.94	77.49	99.4%
OpenLLM v2	MMLU-Pro (5-shot)	51.89	51.59	99.7%
OpenLLM v2	IFEval (0-shot)	90.89	90.68	99.4%
OpenLLM v2	BBH (3-shot)	63.15	62.54	99.0%
OpenLLM v2	Math-lvl-5 (4-shot)	0.17	0.00	N/A
OpenLLM v2	GPQA (0-shot)	46.10	46.44	100.8%
OpenLLM v2	MuSR (0-shot)	44.35	44.34	100.0%
OpenLLM v2	Average	49.42	49.27	99.7%
Coding	HumanEval pass@1	83.20	83.30	100.1%
Coding	HumanEval+ pass@1	78.40	78.60	100.3%
Multilingual	Portuguese MMLU (5-shot)	79.76	79.47	99.6%
Multilingual	Spanish MMLU (5-shot)	79.33	79.23	99.9%
Multilingual	Italian MMLU (5-shot)	79.15	78.80	99.6%
Multilingual	German MMLU (5-shot)	77.94	77.92	100.0%
Multilingual	French MMLU (5-shot)	75.69	75.79	100.1%
Multilingual	Hindi MMLU (5-shot)	73.81	73.49	99.6%
Multilingual	Thai MMLU (5-shot)	71.97	71.44	99.2%

再現

結果は、以下のコマンドを使用して得られました。

MMLU

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU-CoT

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4064,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks mmlu_cot_0shot_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

ARC-Challenge

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3940,max_gen_toks=100,tensor_parallel_size=1 \
  --tasks arc_challenge_llama_3.1_instruct \
  --apply_chat_template \
  --num_fewshot 0 \
  --batch_size auto

GSM-8K

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,max_gen_toks=1024,tensor_parallel_size=1 \
  --tasks gsm8k_cot_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 8 \
  --batch_size auto

Hellaswag

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks hellaswag \
  --num_fewshot 10 \
  --batch_size auto

Winogrande

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks winogrande \
  --num_fewshot 5 \
  --batch_size auto

TruthfulQA

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,add_bos_token=True,max_model_len=4096,tensor_parallel_size=1 \
  --tasks truthfulqa \
  --num_fewshot 0 \
  --batch_size auto

OpenLLM v2

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=4096,tensor_parallel_size=1,enable_chunked_prefill=True \
  --apply_chat_template \
  --fewshot_as_multiturn \
  --tasks leaderboard \
  --batch_size auto

MMLU Portuguese

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_pt_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU Spanish

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_es_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU Italian

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_it_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU German

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_de_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU French

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_fr_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU Hindi

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_hi_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

MMLU Thai

lm_eval \
  --model vllm \
  --model_args pretrained="neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8",dtype=auto,max_model_len=3850,max_gen_toks=10,tensor_parallel_size=1 \
  --tasks mmlu_th_llama_3.1_instruct \
  --fewshot_as_multiturn \
  --apply_chat_template \
  --num_fewshot 5 \
  --batch_size auto

HumanEval and HumanEval+

生成

python3 codegen/generate.py \
  --model neuralmagic-ent/Llama-3.3-70B-Instruct-quantized.w8a8 \
  --bs 16 \
  --temperature 0.2 \
  --n_samples 50 \
  --root "." \
  --dataset humaneval

サニタイズ

python3 evalplus/sanitize.py \
  humaneval/neuralmagic-ent--Llama-3.3-70B-Instruct-quantized.w8a8_vllm_temp_0.2

評価

evalplus.evaluate \
  --dataset humaneval \
  --samples humaneval/neuralmagic-ent--Llama-3.3-70B-Instruct-quantized.w8a8_vllm_temp_0.2-sanitized

📄 ライセンス

このモデルは、llama3.3ライセンスの下で提供されています。

おすすめAIモデル

Llama 3 Typhoon V1.5x 8b Instruct

タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化

Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2％です。

Roberta Base Chinese Extractive Qa

RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。

質問応答システム中国語

uer

2,694

未来を切り開く、あなたのAIソリューション知識ベース

English 简体中文繁體中文にほんご