🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic
このモデルは、Bielik-1.5B-v3.0-Instruct の重みと活性化関数をFP8データ型に量子化したもので、vLLM >= 0.5.0またはSGLangでの推論に対応しています。量子化にはAutoFP8が使用されています。この最適化により、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。量子化は、トランスフォーマーブロック内の線形演算子の重みと活性化関数のみに適用されます。対称的なパーテンソル量子化が適用され、単一の線形スケーリングが量子化された重みと活性化関数のFP8表現をマッピングします。
üìö 技術レポート: https://arxiv.org/abs/2505.02550
FP8計算は、コンピューティングキャパビリティが8.9を超えるNvidia GPU(Ada Lovelace、Hopper)でサポートされています。
⚠️ 重要注意
量子化されたモデルは応答品質が低下し、幻覚現象が発生する可能性があります!
🚀 クイックスタート
✨ 主な機能
このモデルは、重みと活性化関数をFP8データ型に量子化することで、ディスクサイズとGPUメモリ要件を削減し、vLLMやSGLangでの効率的な推論を可能にします。
📦 インストール
本READMEには具体的なインストール手順が記載されていないため、このセクションをスキップします。
💻 使用例
基本的な使用法
vLLMを使用する場合
このモデルは、vLLM バックエンドを使用して効率的にデプロイできます。以下の例を参照してください。
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"
sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False)
llm = LLM(model=model_id, max_model_len=4096)
outputs = llm.generate(prompts, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLMはOpenAI互換のサービングもサポートしています。詳細については、ドキュメント を参照してください。
SGLang Runtimeを使用する場合
SGLang Runtimeのサーバーを起動します。
python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000
その後、HTTPリクエストを送信するか、OpenAI互換APIを使用することができます。
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
],
temperature=0,
max_tokens=4096,
)
print(response)
📚 ドキュメント
モデルの説明
モデル量子化の担当者
- Remigiusz KinasSpeakLeash - チームリーダーシップ、概念化、キャリブレーションデータの準備、プロセスの作成、量子化モデルの配信
🔧 技術詳細
このモデルは、重みと活性化関数をFP8データ型に量子化することで最適化されています。量子化にはAutoFP8が使用され、対称的なパーテンソル量子化が適用されます。これにより、パラメータごとのビット数が16から8に減少し、ディスクサイズとGPUメモリ要件が約50%削減されます。量子化は、トランスフォーマーブロック内の線形演算子の重みと活性化関数のみに適用されます。
📄 ライセンス
このモデルは、Apache 2.0および利用規約の下で提供されています。
お問い合わせ
ご質問やご提案がある場合は、ディスカッションタブをご利用ください。直接お問い合わせを希望する場合は、Discord SpeakLeashに参加してください。