Bielik-1.5B-v3.0-Instruct-FP8-Dynamic開源模型 - 降低磁盤與顯存需求，適配推理框架

首頁

Bielik 1.5B V3.0 Instruct FP8 Dynamic

由speakleash開發

這是一個基於Bielik-1.5B-v3.0-Instruct模型的FP8動態量化版本，適配vLLM或SGLang推理框架，通過AutoFP8量化技術將參數字節數從16位降至8位，顯著降低磁盤空間和GPU顯存需求。

大型語言模型其他開源協議:Apache-2.0 #波蘭語生成 #FP8量化 #指令微調

下載量 31

發布時間 : 5/4/2025

模型概述

該模型是對Bielik-1.5B-v3.0-Instruct的權重和激活值進行FP8數據類型量化的版本，主要用於波蘭語文本生成任務。

模型特點

FP8動態量化

採用AutoFP8量化技術，將參數字節數從16位降至8位，磁盤空間和GPU顯存需求降低約50%

高效推理

適配vLLM >= 0.5.0或SGLang推理框架，優化推理效率

波蘭語優化

專門針對波蘭語文本生成任務進行優化

模型能力

波蘭語文本生成

指令跟隨

使用案例

智能助手

波蘭語問答系統

用於構建波蘭語智能問答助手

🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic

該模型通過將 Bielik-1.5B-v3.0-Instruct 的權重和激活值量化為 FP8 數據類型而獲得，可用於 vLLM >= 0.5.0 或 SGLang 進行推理。

🚀 快速開始

本模型可使用 vLLM 後端高效部署，也可使用 SGLang Runtime 進行推理，以下是具體使用示例。

✨ 主要特性

量化優化：使用 AutoFP8 進行量化，將每個參數的位數從 16 位減少到 8 位，磁盤大小和 GPU 內存需求大約降低 50%。
部分量化：僅對 Transformer 塊內線性算子的權重和激活值進行量化，採用對稱的逐張量量化。
計算支持：支持在計算能力 > 8.9 的英偉達 GPU（如 Ada Lovelace、Hopper）上進行 FP8 計算。

💻 使用示例

基礎用法（使用 vLLM）

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"

sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
    {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持兼容 OpenAI 的服務，更多詳細信息請參閱文檔。

高級用法（使用 SGLang Runtime）

首先啟動 SGLang Runtime 服務器：

python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000

然後可以發送 HTTP 請求或使用兼容 OpenAI 的 API：

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
        {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
    ],
    temperature=0,
    max_tokens=4096,
)
print(response)

📚 詳細文檔

模型描述

屬性	詳情
開發者	SpeakLeash & ACK Cyfronet AGH
語言	波蘭語
模型類型	因果解碼器
量化來源	Bielik-1.5B-v3.0-Instruct
微調來源	Bielik-1.5B-v3
許可證	Apache 2.0 和使用條款

模型量化負責人

Remigiusz Kinas^SpeakLeash - 團隊領導、概念設計、校準數據準備、流程創建和量化模型交付。

技術報告

技術報告鏈接

🔧 技術細節

本模型通過將 Bielik-1.5B-v3.0-Instruct 的權重和激活值量化為 FP8 數據類型獲得。使用 AutoFP8 進行量化，這種優化將每個參數的位數從 16 位減少到 8 位，從而使磁盤大小和 GPU 內存需求大約降低 50%。僅對 Transformer 塊內線性算子的權重和激活值進行量化，採用對稱的逐張量量化，即使用單一線性縮放映射量化後的權重和激活值的 FP8 表示。