Elastic-Mistral-7B-Instruct-v0.3オープンソースモデル - 無料でデプロイ可能、多言語テキスト生成をサポート

Elastic Mistral 7B Instruct V0.3

TheStageAIによって開発

Mistral-7B-Instruct-v0.3はMistral-7Bベースの命令チューニングモデルで、多言語テキスト生成タスクをサポートします。

大規模言語モデルオープンソースライセンス:Apache-2.0 #弾性推論 #多言語生成 #量子化加速

ダウンロード数 68

リリース時間 : 4/2/2025

モデル概要

このモデルは7Bパラメータの大規模言語モデルで、命令チューニングにより最適化されており、多言語のテキスト生成タスクに適しています。弾性モデル技術により、ユーザーはニーズに応じて異なる最適化バージョンを選択し、性能と品質のバランスを取ることができます。

モデル特徴

弾性モデル最適化

XL、L、M、Sの4つの最適化バージョンを提供し、ユーザーはモデルサイズ、遅延、品質の間で柔軟に選択できます。

多言語サポート

中国語、英語、フランス語などの主要言語を含む13言語のテキスト生成をサポートします。

高性能推論

H100 GPU上で最高186トークン/秒の生成速度を達成し、推論効率を大幅に向上させます。

使いやすさ

Hugging Face transformersライブラリと互換性があり、1行のコードで異なる最適化バージョンを切り替えられます。

モデル能力

多言語テキスト生成

命令理解と実行

知識質問応答

コンテンツ作成

使用事例

インテリジェントアシスタント

検索エンジンアシスタント

ユーザーのクエリに回答し、正確な情報を提供します。

例に示すように、文脈に合った専門的な回答を生成できます。

教育

概念説明

専門的な概念や原理を説明します。

DNN量子化などの専門技術概念を明確に説明できます。

🚀 エラスティックモデル: Mistral-7B-Instruct-v0.3

TheStage AI ANNAによって生成された、最速かつ最も柔軟なセルフサービング用モデルです。ANNAを使用すると、簡単な操作でモデルのサイズ、レイテンシ、品質を制御できます。

✨ 主な機能

推論時のコストと品質の選択に柔軟性を提供します。
明確な品質とレイテンシのベンチマークを提供します。
1行のコードでHFライブラリ（transformersとdiffusers）のインターフェースを提供します。
広範なハードウェアでサポートされる事前コンパイル済みのモデルを提供し、JITが不要です。
セルフホスティングに最適なモデルとサービスを提供します。

⚠️ 重要提示

具体的な品質低下率はモデルによって異なります。たとえば、Sモデルでも0.5%の低下率になることがあります。

image/png

📦 インストール

まず、transformers のインポートを elastic_models.transformers に置き換えます。

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# 現在はHFトークンが必要です
# 一部のレイヤーに元の重みとモデル構成を使用しているため
model_name = "mistralai/Mistral-7B-Instruct-v0.3"
hf_token = ''
device = torch.device("cuda")

# モデルを作成
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

次に、ターミナルで以下のコマンドを実行して必要なライブラリをインストールします。

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

その後、app.thestage.aiにログインし、プロファイルページからAPIトークンを生成します。以下のコマンドでAPIトークンを設定します。

thestage config set --api-token <YOUR_API_TOKEN>

これで、高速化されたモデルを使用できます！

💻 使用例

基本的な使用法

# 推論の例
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# 回答を表示
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")

📚 ドキュメント

ベンチマーク

モデルの高速化において、ベンチマークテストは最も重要な手順の1つです。私たちは、独自のアルゴリズムを使用したモデルに対して明確なパフォーマンス指標を提供することを目指しています。W8A8, int8 列は、すべての線形レイヤーにW8A8量子化を適用し、ANNAと同じキャリブレーションデータを使用したことを示しています。Sモデルは、ほぼ同じ速度を達成しながら、はるかに高い品質を実現します。なぜなら、ANNAは敏感なレイヤーでの量子化品質を向上させる方法を知っているからです！