🚀 Bielik-4.5B-v3.0-Instruct-FP8-Dynamic
このモデルは、Bielik-4.5B-v3.0-Instruct の重みとアクティベーションをFP8データ型に量子化することで得られました。vLLM >= 0.5.0 またはSGLangでの推論に対応しています。量子化にはAutoFP8が使用されています。この最適化により、パラメータあたりのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。トランスフォーマーブロック内の線形演算子の重みとアクティベーションのみが量子化されています。対称的なパーテンソル量子化が適用されており、単一の線形スケーリングによって量子化された重みとアクティベーションのFP8表現がマッピングされます。
🔗 技術レポート: https://arxiv.org/abs/2505.02550
FP8計算は、コンピュートキャパビリティが8.9を超えるNvidia GPU(Ada Lovelace、Hopper)でサポートされています。
⚠️ 重要提示
量子化されたモデルは応答品質が低下し、幻覚現象が発生する可能性があることに注意してください!
🚀 クイックスタート
✨ 主な機能
- このモデルは、Bielik-4.5B-v3.0-Instruct の重みとアクティベーションをFP8データ型に量子化したものです。
- AutoFP8を使用した量子化により、ディスクサイズとGPUメモリ要件を約50%削減します。
- vLLM >= 0.5.0 またはSGLangでの推論に対応しています。
📦 インストール
本モデルは、vLLMやSGLangを用いて推論を行うことができます。以下に、それぞれの使用方法を示します。
💻 使用例
vLLMでの使用
このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下はその例です。
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic"
sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False)
llm = LLM(model=model_id, max_model_len=4096)
outputs = llm.generate(prompts, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLMはOpenAI互換のサービングもサポートしています。詳細についてはドキュメントを参照してください。
SGLang Runtimeでの使用
SGLang Runtimeのサーバーを起動します。
python -m sglang.launch_server --model-path speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic --port 30000
その後、HTTPリクエストを送信するか、OpenAI互換APIを使用することができます。
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
],
temperature=0,
max_tokens=4096,
)
print(response)
📚 ドキュメント
モデルの説明
モデル量子化の担当者
- Remigiusz KinasSpeakLeash - チームリーダーシップ、概念化、キャリブレーションデータの準備、プロセスの作成、および量子化モデルの配信。
📄 ライセンス
このモデルはApache 2.0ライセンスおよび利用規約の下で提供されています。
お問い合わせ
質問や提案がある場合は、ディスカッションタブを使用してください。直接お問い合わせしたい場合は、Discord SpeakLeashに参加してください。