Elastic-Mistral-7B-Instruct-v0.3開源模型 - 免費部署支持多語言文本生成

首頁

Elastic Mistral 7B Instruct V0.3

由TheStageAI開發

Mistral-7B-Instruct-v0.3是一個基於Mistral-7B的指令調優模型，支持多語言文本生成任務。

大型語言模型開源協議:Apache-2.0 #彈性推理 #多語言生成 #量化加速

下載量 68

發布時間 : 4/2/2025

模型概述

該模型是一個7B參數的大語言模型，經過指令調優優化，適用於多種語言的文本生成任務。通過彈性模型技術，用戶可以根據需求選擇不同優化版本，平衡性能與質量。

模型特點

彈性模型優化

提供XL、L、M、S四種優化版本，用戶可根據需求在模型大小、延遲和質量之間靈活選擇。

多語言支持

支持13種語言的文本生成，包括中文、英語、法語等主要語言。

高性能推理

在H100 GPU上最高可達186 token/秒的生成速度，顯著提升推理效率。

易用性

與Hugging Face transformers庫兼容，只需單行代碼即可切換不同優化版本。

模型能力

多語言文本生成

指令理解與執行

知識問答

內容創作

使用案例

智能助手

搜索引擎助手

回答用戶查詢，提供準確的信息回覆。

如示例所示，能夠生成符合上下文的專業回答。

教育

概念解釋

解釋專業概念和原理。

能夠清晰解釋DNN量化等專業技術概念。

🚀 彈性模型：Mistral-7B-Instruct-v0.3

彈性模型是由TheStage AI的ANNA（自動化神經網絡加速器）生成的模型。ANNA允許你通過簡單的滑動操作來控制模型的大小、延遲和質量。對於每個模型，ANNA都會生成一系列優化模型：

XL：數學上等效的神經網絡，使用我們的DNN編譯器進行優化。
L：近乎無損的模型，在相應基準測試中的性能下降小於1%。
M：更快的模型，準確率下降小於1.5%。
S：最快的模型，準確率下降小於2%。

彈性模型的目標：

在推理時提供成本與質量選擇的靈活性。
提供清晰的質量和延遲基準。
提供HF庫（transformers和diffusers）的接口，只需一行代碼。
提供支持廣泛硬件的模型，這些模型是預編譯的，無需JIT。
為自託管提供最佳的模型和服務。

⚠️ 重要提示

具體的質量下降可能因模型而異。例如，S模型的性能下降也可能只有0.5%。

模型相關圖片

🚀 快速開始

✨ 主要特性

可通過ANNA靈活控制模型大小、延遲和質量。
提供多種優化模型版本（XL、L、M、S）。
提供清晰的質量和延遲基準。
支持廣泛硬件，預編譯無需JIT。
提供HF庫接口，使用方便。

📦 安裝指南

安裝相關庫：

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

生成並設置API令牌：前往 app.thestage.ai 登錄，從個人資料頁面生成API令牌。然後在終端中設置API令牌：

thestage config set --api-token <YOUR_API_TOKEN>

💻 使用示例

基礎用法

要推理我們的模型，你只需將 transformers 導入替換為 elastic_models.transformers：

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# Currently we require to have your HF token
# as we use original weights for part of layers and
# model confugaration as well
model_name = "mistralai/Mistral-7B-Instruct-v0.3"
hf_token = ''
device = torch.device("cuda")

# Create mode
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# Inference simple as transformers library
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# Validate answer
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")