Bielik-4.5B-v3.0-Instruct-FP8-Dynamic開源模型 - 減少內存需求、節省磁盤空間

首頁

Bielik 4.5B V3.0 Instruct FP8 Dynamic

由speakleash開發

該模型是Bielik-4.5B-v3.0-Instruct的FP8量化版本，通過AutoFP8技術將權重和激活量化為FP8數據類型，減少約50%的磁盤空間和GPU內存需求。

大型語言模型其他開源協議:Apache-2.0 #波蘭語生成 #FP8量化 #指令微調

下載量 74

發布時間 : 5/4/2025

模型概述

波蘭語大語言模型，基於Bielik-4.5B-v3.0-Instruct進行FP8量化，適用於文本生成任務。

模型特點

FP8量化

採用AutoFP8技術將權重和激活量化為FP8數據類型，顯著減少模型大小和內存需求。

高效推理

支持使用vLLM >= 0.5.0或SGLang進行高效推理。

波蘭語優化

專門針對波蘭語進行優化，適合波蘭語文本生成任務。

模型能力

波蘭語文本生成

指令跟隨

使用案例

教育

波蘭歷史人物介紹

生成關於波蘭歷史人物（如尼古拉·哥白尼）的詳細介紹。

客服

波蘭語客服助手

作為波蘭語客服助手，回答用戶問題。

🚀 Bielik-4.5B-v3.0-Instruct-FP8-Dynamic

本模型是通過將 Bielik-4.5B-v3.0-Instruct 的權重和激活值量化為 FP8 數據類型得到的，可用於 vLLM >= 0.5.0 或 SGLang 進行推理。量化過程使用了 AutoFP8 技術，該優化將每個參數的比特數從 16 位減少到 8 位，使磁盤大小和 GPU 內存需求大約降低了 50%。僅對 Transformer 塊內線性算子的權重和激活值進行量化，採用對稱的逐張量量化方法，即使用單個線性縮放映射來表示量化後權重和激活值的 FP8 表示形式。

📄 技術報告：https://arxiv.org/abs/2505.02550

FP8 計算支持英偉達計算能力大於 8.9 的 GPU（如 Ada Lovelace、Hopper）。

⚠️ 重要提示

請注意，量化模型的響應質量可能會降低，並且可能會出現幻覺現象！

🚀 快速開始

✨ 主要特性

本模型將 Bielik-4.5B-v3.0-Instruct 進行量化，降低了磁盤大小和 GPU 內存需求。
支持 vLLM >= 0.5.0 或 SGLang 進行推理。
採用 AutoFP8 量化技術，僅對 Transformer 塊內線性算子的權重和激活值進行量化。

📦 安裝指南

文檔未提及具體安裝步驟，可參考相關依賴庫（如 vLLM、SGLang 等）的官方文檔進行安裝。

💻 使用示例

基礎用法（使用 vLLM）

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic"

sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
    {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 還支持 OpenAI 兼容服務，更多詳細信息請參考文檔。

高級用法（使用 SGLang Runtime）

首先啟動 SGLang Runtime 服務器：

python -m sglang.launch_server --model-path speakleash/Bielik-4.5B-v3.0-Instruct-FP8-Dynamic --port 30000

然後可以發送 HTTP 請求或使用 OpenAI 兼容 API：

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
        {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
    ],
    temperature=0,
    max_tokens=4096,
)
print(response)

📚 詳細文檔

模型描述

屬性	詳情
開發者	SpeakLeash & ACK Cyfronet AGH
語言	波蘭語
模型類型	因果解碼器
量化來源	Bielik-4.5B-v3.0-Instruct
微調來源	Bielik-4.5B-v3
許可證	Apache 2.0 和使用條款