🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic
該模型通過將 Bielik-1.5B-v3.0-Instruct 的權重和激活值量化為 FP8 數據類型而獲得,可用於 vLLM >= 0.5.0 或 SGLang 進行推理。
🚀 快速開始
本模型可使用 vLLM 後端高效部署,也可使用 SGLang Runtime 進行推理,以下是具體使用示例。
✨ 主要特性
- 量化優化:使用 AutoFP8 進行量化,將每個參數的位數從 16 位減少到 8 位,磁盤大小和 GPU 內存需求大約降低 50%。
- 部分量化:僅對 Transformer 塊內線性算子的權重和激活值進行量化,採用對稱的逐張量量化。
- 計算支持:支持在計算能力 > 8.9 的英偉達 GPU(如 Ada Lovelace、Hopper)上進行 FP8 計算。
💻 使用示例
基礎用法(使用 vLLM)
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"
sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False)
llm = LLM(model=model_id, max_model_len=4096)
outputs = llm.generate(prompts, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLM 還支持兼容 OpenAI 的服務,更多詳細信息請參閱 文檔。
高級用法(使用 SGLang Runtime)
首先啟動 SGLang Runtime 服務器:
python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000
然後可以發送 HTTP 請求或使用兼容 OpenAI 的 API:
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
],
temperature=0,
max_tokens=4096,
)
print(response)
📚 詳細文檔
模型描述
模型量化負責人
技術報告
技術報告鏈接
🔧 技術細節
本模型通過將 Bielik-1.5B-v3.0-Instruct 的權重和激活值量化為 FP8 數據類型獲得。使用 AutoFP8 進行量化,這種優化將每個參數的位數從 16 位減少到 8 位,從而使磁盤大小和 GPU 內存需求大約降低 50%。僅對 Transformer 塊內線性算子的權重和激活值進行量化,採用對稱的逐張量量化,即使用單一線性縮放映射量化後的權重和激活值的 FP8 表示。
📄 許可證
本模型採用 Apache 2.0 許可證和 使用條款。
⚠️ 重要提示
請注意,量化模型的響應質量可能會降低,並且可能會出現幻覺現象!
📞 聯繫我們
如果您有任何問題或建議,請使用討論標籤。如果您想直接聯繫我們,請加入我們的 Discord SpeakLeash。