Meta-Llama-3.1-70B-Instruct-AWQ-INT4開源模型 - 免費部署支持多語言對話

首頁

Meta Llama 3.1 70B Instruct AWQ INT4

由hugging-quants開發

Llama 3.1 70B Instruct的INT4量化版本，基於AutoAWQ技術優化，適用於多語言對話場景。

大型語言模型

Transformers

支持多種語言#多語言對話 #INT4量化 #大模型推理優化

下載量 80.59k

發布時間 : 7/19/2024

模型概述

這是Meta Llama 3.1系列70B參數規模的指令調優模型的INT4量化版本，針對多語言對話進行了優化，支持多種語言。

模型特點

INT4量化

使用AutoAWQ技術將模型從FP16量化至INT4，顯著減少內存佔用和計算需求。

多語言支持

支持包括英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語在內的多種語言。

指令調優

針對多語言對話場景進行了優化，能夠更好地理解和執行用戶指令。

模型能力

多語言文本生成

對話系統

指令理解與執行

使用案例

對話系統

多語言客服機器人

構建支持多種語言的智能客服系統，能夠理解並回答用戶問題。

提供流暢、準確的多語言對話體驗。

內容生成

多語言內容創作

生成多種語言的營銷文案、文章或社交媒體內容。

高效生成符合語境的高質量多語言內容。

🚀 Meta Llama 3.1 70B Instruct AWQ INT4 量化模型

本項目是對原始模型meta-llama/Meta-Llama-3.1-70B-Instruct的社區驅動量化版本，原始模型是 Meta AI 發佈的 FP16 半精度官方版本。該量化模型使用 AutoAWQ 將模型從 FP16 量化到 INT4，能在減少顯存佔用的同時保持一定的性能。

🚀 快速開始

環境準備

運行 Llama 3.1 70B Instruct AWQ INT4 模型推理大約需要 35 GiB 的顯存來加載模型檢查點，且不包括 KV 緩存或 CUDA 圖，因此需要確保有足夠的顯存可用。

安裝依賴

根據不同的使用方式，安裝相應的依賴包。

🤗 Transformers

pip install -q --upgrade transformers autoawq accelerate

AutoAWQ

pip install -q --upgrade transformers autoawq accelerate

🤗 Text Generation Inference (TGI)

pip install -q --upgrade huggingface_hub
huggingface-cli login

vLLM

需要安裝 Docker，參考安裝說明。

✨ 主要特性

多語言支持：支持英語、德語、法語、意大利語、葡萄牙語、印地語、西班牙語和泰語等多種語言。
量化優化：使用 AutoAWQ 從 FP16 量化到 INT4，減少顯存佔用。
多種推理方案：支持 transformers、autoawq、text-generation-inference 和 vLLM 等多種推理方案。

📦 安裝指南

🤗 Transformers

pip install -q --upgrade transformers autoawq accelerate

AutoAWQ

pip install -q --upgrade transformers autoawq accelerate

🤗 Text Generation Inference (TGI)

pip install -q --upgrade huggingface_hub
huggingface-cli login

vLLM

安裝 Docker，參考安裝說明。

💻 使用示例

🤗 Transformers

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, AwqConfig

model_id = "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4"
quantization_config = AwqConfig(
    bits=4,
    fuse_max_seq_len=512, # Note: Update this as per your use-case
    do_fuse=True,
)

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.float16,
  low_cpu_mem_usage=True,
  device_map="auto",
  quantization_config=quantization_config
)

prompt = [
  {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
  {"role": "user", "content": "What's Deep Learning?"},
]
inputs = tokenizer.apply_chat_template(
  prompt,
  tokenize=True,
  add_generation_prompt=True,
  return_tensors="pt",
  return_dict=True,
).to("cuda")

outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
print(tokenizer.batch_decode(outputs[:, inputs['input_ids'].shape[1]:], skip_special_tokens=True)[0])

AutoAWQ

import torch
from awq import AutoAWQForCausalLM
from transformers import AutoModelForCausalLM, AutoTokenizer

model_id = "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4"
tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoAWQForCausalLM.from_pretrained(
  model_id,
  torch_dtype=torch.float16,
  low_cpu_mem_usage=True,
  device_map="auto",
)

prompt = [
  {"role": "system", "content": "You are a helpful assistant, that responds as a pirate."},
  {"role": "user", "content": "What's Deep Learning?"},
]
inputs = tokenizer.apply_chat_template(
  prompt,
  tokenize=True,
  add_generation_prompt=True,
  return_tensors="pt",
  return_dict=True,
).to("cuda")

outputs = model.generate(**inputs, do_sample=True, max_new_tokens=256)
print(tokenizer.batch_decode(outputs[:, inputs['input_ids'].shape[1]:], skip_special_tokens=True)[0])

🤗 Text Generation Inference (TGI)

啟動 Docker 容器

docker run --gpus all --shm-size 1g -ti -p 8080:80 \
  -v hf_cache:/data \
  -e MODEL_ID=hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \
  -e NUM_SHARD=4 \
  -e QUANTIZE=awq \
  -e HF_TOKEN=$(cat ~/.cache/huggingface/token) \
  -e MAX_INPUT_LENGTH=4000 \
  -e MAX_TOTAL_TOKENS=4096 \
  ghcr.io/huggingface/text-generation-inference:2.2.0

發送請求

curl 0.0.0.0:8080/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "tgi",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is Deep Learning?"
      }
    ],
    "max_tokens": 128
  }'

Python 代碼調用

import os
from huggingface_hub import InferenceClient

client = InferenceClient(base_url="http://0.0.0.0:8080", api_key=os.getenv("HF_TOKEN", "-"))

chat_completion = client.chat.completions.create(
  model="hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What is Deep Learning?"},
  ],
  max_tokens=128,
)

vLLM

啟動 Docker 容器

docker run --runtime nvidia --gpus all --ipc=host -p 8000:8000 \
  -v hf_cache:/root/.cache/huggingface \
  vllm/vllm-openai:latest \
  --model hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4 \
  --tensor-parallel-size 4 \
  --max-model-len 4096

發送請求

curl 0.0.0.0:8000/v1/chat/completions \
  -X POST \
  -H 'Content-Type: application/json' \
  -d '{
    "model": "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4",
    "messages": [
      {
        "role": "system",
        "content": "You are a helpful assistant."
      },
      {
        "role": "user",
        "content": "What is Deep Learning?"
      }
    ],
    "max_tokens": 128
  }'

Python 代碼調用

import os
from openai import OpenAI

client = OpenAI(base_url="http://0.0.0.0:8000/v1", api_key=os.getenv("VLLM_API_KEY", "-"))

chat_completion = client.chat.completions.create(
  model="hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4",
  messages=[
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "What is Deep Learning?"},
  ],
  max_tokens=128,
)

📚 詳細文檔

模型信息

Meta Llama 3.1 是一系列多語言大語言模型（LLM），有 8B、70B 和 405B 三種規模（文本輸入/文本輸出）。Llama 3.1 指令微調的純文本模型（8B、70B、70B）針對多語言對話用例進行了優化，在常見行業基準測試中優於許多可用的開源和閉源聊天模型。

本倉庫包含使用 AutoAWQ 對meta-llama/Meta-Llama-3.1-70B-Instruct 進行量化的版本，從 FP16 量化到 INT4，使用 GEMM 內核進行零點量化，組大小為 128。

量化復現

環境要求

量化 Llama 3.1 70B Instruct 需要至少有足夠 CPU 內存（約 140GiB）來加載整個模型的實例，以及具有 40GiB 顯存的 NVIDIA GPU。

安裝依賴

pip install -q --upgrade transformers autoawq accelerate

運行量化腳本

from awq import AutoAWQForCausalLM
from transformers import AutoTokenizer

model_path = "meta-llama/Meta-Llama-3.1-70B-Instruct"
quant_path = "hugging-quants/Meta-Llama-3.1-70B-Instruct-AWQ-INT4"
quant_config = {
  "zero_point": True,
  "q_group_size": 128,
  "w_bit": 4,
  "version": "GEMM",
}

# Load model
model = AutoAWQForCausalLM.from_pretrained(
  model_path, low_cpu_mem_usage=True, use_cache=False,
)
tokenizer = AutoTokenizer.from_pretrained(model_path)

# Quantize
model.quantize(tokenizer, quant_config=quant_config)

# Save quantized model
model.save_quantized(quant_path)
tokenizer.save_pretrained(quant_path)

print(f'Model is quantized and saved at "{quant_path}"')

📄 許可證

本模型使用 llama3.1 許可證。

屬性	詳情
模型類型	Meta Llama 3.1 70B Instruct AWQ INT4 量化模型
訓練數據	未提及

⚠️ 重要提示

運行 Llama 3.1 70B Instruct AWQ INT4 模型推理大約需要 35 GiB 的顯存來加載模型檢查點，且不包括 KV 緩存或 CUDA 圖，因此需要確保有足夠的顯存可用。

💡 使用建議

在使用 transformers 或 autoawq 進行推理時，可以根據實際情況調整 fuse_max_seq_len 參數以優化性能。

使用 text-generation-inference 或 vLLM 時，確保 Docker 環境正常運行，並根據需要調整容器參數。