Elastic-Llama-3.1-8B-Instructオープンソースモデル - 自デプロイ対応、様々な精度と速度のバリエーションが選べます。

Elastic Llama 3.1 8B Instruct

TheStageAIによって開発

Meta-Llama-3.1-8B-Instructの弾性最適化バージョンで、異なる速度と精度のモデルバリアントを提供し、自己展開シナリオに適しています。

大規模言語モデルオープンソースライセンス:Apache-2.0 #弾性推論 #多言語生成 #量子化最適化

ダウンロード数 125

リリース時間 : 4/13/2025

モデル概要

このモデルはMeta-Llama-3.1-8B-Instructの量子化バージョンで、ANNA（自動ニューラルネットワークアクセラレータ）によって生成され、XL、L、M、Sの4つの最適化バージョンを提供します。ユーザーは必要に応じて速度と品質の間で柔軟に選択できます。

モデル特徴

弾性調整

簡単なスライドコントロールでモデルサイズ、遅延、品質を調整でき、XL、L、M、Sの4つの最適化バージョンを提供します。

高性能最適化

DNNコンパイラによる最適化で、数学的に等価なニューラルネットワークを提供し、高品質を維持しながら推論速度を向上させます。

多ハードウェアサポート

H100/L40s GPUやAMD/Intel CPUなど、さまざまなハードウェアプラットフォームをサポートし、事前コンパイルにより即時コンパイル（JIT）が不要です。

互換性

HFライブラリ（transformers/diffusers）と互換性があり、1行のコードで呼び出せ、多言語テキスト生成をサポートします。

モデル能力

多言語テキスト生成

高品質推論

低遅延応答

弾性モデル調整

使用事例

検索エンジン

質問応答システム

検索エンジンとしてユーザーのクエリに応答し、高品質な多言語回答を提供します。

MMLUなどのベンチマークテストで優れた性能を示し、総合知識能力スコアは65.8（Sバージョン）です。

教育

知識説明

DNN量子化の基本原理などの複雑な概念を説明します。

PIQAテストでは物理常識推論能力スコアが77.6（Sバージョン）に達しました。

🚀 エラスティックモデル: Meta-Llama-3.1-8B-Instruct

エラスティックモデルは、TheStage AI ANNA（Automated Neural Networks Accelerator）によって生成されるモデルです。ANNAを使用すると、簡単なスライダー操作でモデルのサイズ、レイテンシー、品質をコントロールできます。各モデルに対して、ANNAは一連の最適化されたモデルを生成します。

XL: 数学的に等価なニューラルネットワークで、DNNコンパイラで最適化されています。
L: ほぼ損失のないモデルで、対応するベンチマークで1%未満の劣化が見られます。
M: より高速なモデルで、精度の劣化は1.5%未満です。
S: 最も高速なモデルで、精度の劣化は2%未満です。

エラスティックモデルの目標:

推論時のコストと品質の選択に柔軟性を提供する
明確な品質とレイテンシーのベンチマークを提供する
HFライブラリ（transformersとdiffusers）のインターフェースを1行のコードで提供する
広範なハードウェアでサポートされるモデルを提供し、事前にコンパイルされておりJITが不要です。
セルフホスティングに最適なモデルとサービスを提供する

具体的な品質劣化はモデルによって異なることに注意してください。例えば、Sモデルでは0.5%の劣化もあり得ます。

画像/png

🚀 クイックスタート

推論

このモデルを推論するには、transformersのインポートをelastic_models.transformersに置き換えるだけです。

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# 現在、一部のレイヤーとモデル構成に元の重みを使用しているため、HFトークンが必要です
model_name = "meta-llama/Meta-Llama-3.1-8B-Instruct"
hf_token = ''
device = torch.device("cuda")

# モデルを作成
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# transformersライブラリと同じように簡単に推論できます
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# 回答を検証
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")

システム要件:

GPU: H100, L40s
CPU: AMD, Intel
Python: 3.10 - 3.12

モデルを使用するには、ターミナルで以下のコマンドを実行します。

pip install thestage
pip install elastic_models[nvidia] \
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple \
 --extra-index-url https://pypi.nvidia.com \
 --extra-index-url https://pypi.org/simple

次に、app.thestage.aiにアクセスしてログインし、プロファイルページからAPIトークンを生成します。APIトークンを以下のように設定します。

thestage config set --api-token <YOUR_API_TOKEN>

おめでとうございます！これで高速化されたモデルを使用できます。

📊 ベンチマーク

ベンチマークは、モデルの高速化において最も重要な手順の1つです。私たちは、独自のアルゴリズムを使用したモデルに対して明確なパフォーマンス指標を提供することを目指しています。W8A8, int8列は、すべての線形レイヤーにint8データ型でW8A8量子化を適用し、ANNAと同じキャリブレーションデータを使用したことを示しています。Sモデルは、ほぼ同じ速度を達成しながら、はるかに高い品質を実現します。なぜなら、ANNAは敏感なレイヤーでの量子化品質を向上させる方法を知っているからです！