Elastic-Qwen2.5-7B-Instructオープンソース弾性モデル - パラメータをスライド調整し、自ホストシナリオに柔軟な解決策を提供

Elastic Qwen2.5 7B Instruct

TheStageAIによって開発

エラスティックモデルはTheStage AI ANNAによって生成されたモデルシリーズで、スライドコントロールバーを使用してモデルの規模、遅延、品質を自由に調整でき、セルフホスティングシナリオにおいて最速で最も柔軟なソリューションを提供します。

大規模言語モデル複数言語対応オープンソースライセンス:Apache-2.0 #多言語対話 #調整可能な推論 #低遅延最適化

ダウンロード数 30

リリース時間 : 4/22/2025

モデル概要

Qwen2.5-7B-Instructのエラスティックバージョンで、XL/L/M/Sの4つの最適化レベルを提供し、多言語テキスト生成タスクをサポートし、性能と品質の柔軟なバランスが必要なシナリオに適しています。

モデル特徴

エラスティック調整

簡単なスライドコントロールバーでモデルの規模、遅延、品質を自由に調整し、XL/L/M/Sの4つの最適化バージョンを提供

多ハードウェアサポート

H100/L40s GPUおよびAMD/Intel CPUプラットフォームをサポートし、プリコンパイル済みで即時コンパイル不要

透明なベンチマーク

詳細な遅延と品質のベンチマークデータを提供し、ユーザーが賢明な選択をするのを支援

シームレスな統合

単一行のコードでHFエコシステムライブラリを呼び出し、標準transformersと互換性あり

モデル能力

多言語テキスト生成

命令追従

知識質問応答

コンテンツ作成

使用事例

インテリジェントアシスタント

多言語カスタマーサービスボット

13言語をサポートするインテリジェントカスタマーサービスシステムを展開

応答速度を維持しながらサーバーコストを削減

コンテンツ生成

多言語コンテンツ作成

異なる地域の言語習慣に合わせたマーケティングコピーを自動生成

コンテンツ生産効率を30%以上向上

🚀 エラスティックモデル: Qwen2.5-7B-Instruct。セルフサービングに最適な高速かつ柔軟なモデル

エラスティックモデルは、TheStage AI ANNA（Automated Neural Networks Accelerator）によって生成されるモデルです。ANNAを使用すると、シンプルなスライダー操作でモデルのサイズ、レイテンシー、品質を制御できます。各モデルに対して、ANNAは一連の最適化されたモデルを生成します。

XL: 数学的に同等のニューラルネットワークで、当社のDNNコンパイラで最適化されています。
L: ほぼ損失のないモデルで、対応するベンチマークで1%未満の劣化が見られます。
M: より高速なモデルで、精度の劣化が1.5%未満です。
S: 最も高速なモデルで、精度の劣化が2%未満です。

エラスティックモデルの目標:

推論時のコストと品質の選択に柔軟性を提供する
明確な品質とレイテンシーのベンチマークを提供する
1行のコードでHFライブラリ（transformersとdiffusers）のインターフェースを提供する
広範なハードウェアでサポートされるモデルを提供し、事前にコンパイルされており、JITが不要です。
セルフホスティングに最適なモデルとサービスを提供する

⚠️ 重要提示

具体的な品質劣化はモデルによって異なることに注意してください。たとえば、Sモデルでは0.5%の劣化もあり得ます。

Performance Graph

🚀 クイックスタート

📦 インストール

このモデルを使用するには、以下のコマンドをターミナルで実行します。

pip install thestage
pip install elastic_models[nvidia]\
 --index-url https://thestage.jfrog.io/artifactory/api/pypi/pypi-thestage-ai-production/simple\
 --extra-index-url https://pypi.nvidia.com\
 --extra-index-url https://pypi.org/simple

pip install flash_attn==2.7.3 --no-build-isolation
pip uninstall apex

その後、app.thestage.aiにアクセスし、ログインしてプロフィールページからAPIトークンを生成します。以下のようにAPIトークンを設定します。

thestage config set --api-token <YOUR_API_TOKEN>

これで、高速化されたモデルを使用できます！

💻 使用例

基本的な使用法

このモデルを推論するには、transformers のインポートを elastic_models.transformers に置き換えるだけです。

import torch
from transformers import AutoTokenizer
from elastic_models.transformers import AutoModelForCausalLM

# Currently we require to have your HF token
# as we use original weights for part of layers and
# model confugaration as well
model_name = "Qwen/Qwen2.5-7B-Instruct"
hf_token = ''
device = torch.device("cuda")

# Create mode
tokenizer = AutoTokenizer.from_pretrained(
    model_name, token=hf_token
)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    token=hf_token,
    torch_dtype=torch.bfloat16,
    attn_implementation="sdpa",
    mode='S'
).to(device)
model.generation_config.pad_token_id = tokenizer.eos_token_id

# Inference simple as transformers library
prompt = "Describe basics of DNNs quantization."
messages = [
  {
    "role": "system",
    "content": "You are a search bot, answer on user text queries."
  },
  {
    "role": "user",
    "content": prompt
  }
]

chat_prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

inputs = tokenizer(chat_prompt, return_tensors="pt")
inputs.to(device)

with torch.inference_mode():
    generate_ids = model.generate(**inputs, max_length=500)

input_len = inputs['input_ids'].shape[1]
generate_ids = generate_ids[:, input_len:]
output = tokenizer.batch_decode(
    generate_ids,
    skip_special_tokens=True,
    clean_up_tokenization_spaces=False
)[0]

# Validate answer
print(f"# Q:\n{prompt}\n")
print(f"# A:\n{output}\n")

システム要件

GPU: H100, L40s
CPU: AMD, Intel
Python: 3.10 - 3.12

📚 ドキュメント

🔧 技術詳細

ベンチマークは、モデルの高速化において最も重要な手順の1つです。当社は、独自のアルゴリズムを使用してモデルの明確なパフォーマンス指標を提供することを目指しています。W8A8, int8 列は、すべての線形層にint8データ型でW8A8量子化を適用し、ANNAと同じキャリブレーションデータを使用したことを示しています。Sモデルは、ほぼ同じ速度を達成しながら、はるかに高い品質を実現しています。なぜなら、ANNAは敏感な層での量子化品質を向上させる方法を知っているからです！

品質ベンチマーク

メトリック/モデル	S	M	L	XL	オリジナル	W8A8, int8
arc_challenge	49.10	50.10	53.20	52.60	52.60	41.70
mmlu	71.70	73.00	74.10	73.50	73.50	64.60
piqa	77.00	78.20	78.80	79.50	79.50	67.10
winogrande	66.20	69.10	71.50	70.60	70.60	53.10

MMLU: 科学、人文科学、工学など57の科目にわたる一般知識を評価します。モデルが多様な学術的トピックを扱う能力を示します。
PIQA: 日常の物理的相互作用に関する質問を通じて、物理的常識推論を評価します。モデルが現実世界の物理概念を理解する能力を示します。
Arc Challenge: 推論を必要とする小学校レベルの選択問題を評価します。モデルが複雑な推論タスクを解く能力を示します。
Winogrande: 文章の完成タスクを通じて、常識推論を評価します。モデルが文脈を理解し、曖昧さを解消する能力を示します。