Elastic-Llama-3.2-1B-Instructオープンソースモデル - セルフホスティングで効率的かつ柔軟で、性能バランスを自由に調整可能

ホーム

Elastic Llama 3.2 1B Instruct

TheStageAIによって開発

セルフホスティング環境で最速かつ最も柔軟なモデル。スライドコントロールでモデルサイズ、推論遅延、品質のバランスを自由に調整可能

大規模言語モデルオープンソースライセンス:Apache-2.0 #多言語命令モデル #調整可能な推論速度 #セルフホスティング最適化

ダウンロード数 65

リリース時間 : 4/14/2025

モデル概要

TheStage AI ANNAによって生成された最適化モデルシリーズ。4つの異なる最適化レベルのバージョン（XL/L/M/S）を提供し、セルフホスティング環境で最高のパフォーマンスと品質のバランスを実現

モデル特徴

エラスティック調整

簡単なスライド操作でモデルサイズ、推論遅延、品質のバランスを自由に調整可能

マルチバージョン最適化

XL/L/M/Sの4つの最適化バージョンを提供し、それぞれ異なる速度と精度のバランスに対応

ハードウェア互換性

複数のハードウェアプラットフォーム（H100/L40s GPUおよびAMD/Intel CPU）をサポートし、事前コンパイル済みでJIT不要

シームレス統合

1行のコードでHuggingFace transformersエコシステムと互換性あり

モデル能力

多言語テキスト生成

命令追従

知識質問応答

コンテンツ作成

使用事例

検索エンジン強化

インテリジェントQAシステム

検索エンジンのバックエンドとして正確な回答を提供

MMLUベンチマークで45.5-46.2点を達成

企業ナレッジ管理

内部ナレッジベースQA

従業員の企業ポリシー/プロセスに関する問い合わせに迅速に対応

PIQA常識テストで73.1-74.3点を達成

🚀 エラスティックモデル: Llama-3.2-1B-Instruct。セルフサービングに最適な高速かつ柔軟なモデル

エラスティックモデルは、TheStage AI ANNA（Automated Neural Networks Accelerator）によって生成されるモデルです。ANNAを使用すると、簡単なスライダー操作でモデルのサイズ、レイテンシー、品質を制御できます。各モデルに対して、ANNAは一連の最適化されたモデルを生成します。

XL: 数学的に同等のニューラルネットワークで、当社のDNNコンパイラで最適化されています。
L: ほぼ損失のないモデルで、対応するベンチマークで1%未満の性能劣化が見られます。
M: より高速なモデルで、精度の劣化は1.5%未満です。
S: 最も高速なモデルで、精度の劣化は2%未満です。

エラスティックモデルの目標:

推論時のコストと品質の選択に柔軟性を提供する
明確な品質とレイテンシーのベンチマークを提供する
HFライブラリ（transformersとdiffusers）のインターフェースを1行のコードで提供する
広範なハードウェアでサポートされるモデルを提供し、事前コンパイルされておりJITが不要です。
セルフホスティングに最適なモデルとサービスを提供する

⚠️ 重要提示

具体的な品質劣化はモデルによって異なることに注意してください。たとえば、Sモデルでは0.5%の劣化もあり得ます。

image/png

🚀 クイックスタート

推論

このモデルを推論するには、transformers のインポートを elastic_models.transformers に置き換えるだけです。

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# Currently we require to have your HF token
# as we use original weights for part of layers and
# model confugaration as well
model_name = "meta-llama/Llama-3.2-1B-Instruct"
hf_token = ''
device = torch.device("cuda")

# Create mode
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name, 
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# Inference simple as transformers library
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode:
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True, 
    clean_up_tokenization_spaces=False
)[0]

# Validate answer
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")

システム要件:

GPU: H100, L40s
CPU: AMD, Intel
Python: 3.10 - 3.12

モデルを使用するには、ターミナルで以下のコマンドを実行します。

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

次に、app.thestage.ai にアクセスしてログインし、プロファイルページからAPIトークンを生成します。APIトークンを以下のように設定します。

thestage config set --api-token <YOUR_API_TOKEN>

おめでとうございます！これで高速化されたモデルを使用できます。

📚 ドキュメント

ベンチマーク

ベンチマークは、モデルの高速化において最も重要な手順の1つです。当社のアルゴリズムを使用したモデルの明確なパフォーマンス指標を提供することを目指しています。W8A8, int8 列は、すべての線形レイヤーにint8データ型でW8A8量子化を適用し、ANNAと同じキャリブレーションデータを使用したことを示しています。Sモデルは、ほぼ同じ速度を達成しながら、はるかに高い品質を実現します。なぜなら、ANNAは敏感なレイヤーでの量子化品質を向上させる方法を知っているからです！

品質ベンチマーク

メトリック/モデル	S	M	L	XL	オリジナル	W8A8, int8
MMLU	45.5	45.9	45.9	46.2	46.2	24
PIQA	73.1	73.7	74.2	74.3	74.3	55.8
Arc Challenge	34.5	35.9	36.0	35.8	35.8	20.3
Winogrande	60.4	59.7	60.8	59.5	59.5	50.3

MMLU: 科学、人文科学、工学など57の科目にわたる一般知識を評価します。モデルが多様な学術的トピックを扱う能力を示します。
PIQA: 日常の物理的相互作用に関する質問を通じて物理的常識推論を評価します。モデルが現実世界の物理概念を理解する能力を示します。
Arc Challenge: 小学校レベルの推論を必要とする選択問題を評価します。モデルが複雑な推論タスクを解く能力を示します。
Winogrande: 文章の完成タスクを通じて常識推論を評価します。モデルが文脈を理解し、曖昧さを解消する能力を示します。

レイテンシーベンチマーク

100入力/300出力; トークン/秒:

GPU/モデル	S	M	L	XL	オリジナル	W8A8, int8
H100	436	436	409	396	110	439
L40s	290	251	222	210	103	300

🔗 リンク

プラットフォーム: app.thestage.ai
更新情報の購読: TheStageAI X
お問い合わせメール: contact@thestage.ai

📄 ライセンス

Apache-2.0

属性	詳情
ベースモデル	meta-llama/Llama-3.2-1B-Instruct
ベースモデルの関係	量子化済み
パイプラインタグ	テキスト生成
言語	中国語、英語、フランス語、スペイン語、ポルトガル語、ドイツ語、イタリア語、ロシア語、日本語、韓国語、ベトナム語、タイ語、アラビア語