Bielik-1.5B-v3.0-Instruct-FP8-Dynamic开源模型 - 降低磁盘与显存需求，适配推理框架

首页

Bielik 1.5B V3.0 Instruct FP8 Dynamic

由 speakleash 开发

这是一个基于Bielik-1.5B-v3.0-Instruct模型的FP8动态量化版本，适配vLLM或SGLang推理框架，通过AutoFP8量化技术将参数字节数从16位降至8位，显著降低磁盘空间和GPU显存需求。

大型语言模型其他开源协议:Apache-2.0 #波兰语生成 #FP8量化 #指令微调

下载量 31

发布时间 : 5/4/2025

模型简介

该模型是对Bielik-1.5B-v3.0-Instruct的权重和激活值进行FP8数据类型量化的版本，主要用于波兰语文本生成任务。

模型特点

FP8动态量化

采用AutoFP8量化技术，将参数字节数从16位降至8位，磁盘空间和GPU显存需求降低约50%

高效推理

适配vLLM >= 0.5.0或SGLang推理框架，优化推理效率

波兰语优化

专门针对波兰语文本生成任务进行优化

模型能力

波兰语文本生成

指令跟随

使用案例

智能助手

波兰语问答系统

用于构建波兰语智能问答助手

🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic

该模型通过将 Bielik-1.5B-v3.0-Instruct 的权重和激活值量化为 FP8 数据类型而获得，可用于 vLLM >= 0.5.0 或 SGLang 进行推理。

🚀 快速开始

本模型可使用 vLLM 后端高效部署，也可使用 SGLang Runtime 进行推理，以下是具体使用示例。

✨ 主要特性

量化优化：使用 AutoFP8 进行量化，将每个参数的位数从 16 位减少到 8 位，磁盘大小和 GPU 内存需求大约降低 50%。
部分量化：仅对 Transformer 块内线性算子的权重和激活值进行量化，采用对称的逐张量量化。
计算支持：支持在计算能力 > 8.9 的英伟达 GPU（如 Ada Lovelace、Hopper）上进行 FP8 计算。

💻 使用示例

基础用法（使用 vLLM）

from vllm import LLM, SamplingParams
from transformers import AutoTokenizer

model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"

sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)

tokenizer = AutoTokenizer.from_pretrained(model_id)

messages = [
    {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
    {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
]

prompts = tokenizer.apply_chat_template(messages, tokenize=False)

llm = LLM(model=model_id, max_model_len=4096)

outputs = llm.generate(prompts, sampling_params)

generated_text = outputs[0].outputs[0].text
print(generated_text)

vLLM 还支持兼容 OpenAI 的服务，更多详细信息请参阅文档。

高级用法（使用 SGLang Runtime）

首先启动 SGLang Runtime 服务器：

python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000

然后可以发送 HTTP 请求或使用兼容 OpenAI 的 API：

import openai
client = openai.Client(
    base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")

response = client.chat.completions.create(
    model="default",
    messages=[
        {"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
        {"role": "user", "content": "Kim by≈Ç Miko≈Çaj Kopernik i z czego zas≈ÇynƒÖ≈Ç?"},
    ],
    temperature=0,
    max_tokens=4096,
)
print(response)

📚 详细文档

模型描述

属性	详情
开发者	SpeakLeash & ACK Cyfronet AGH
语言	波兰语
模型类型	因果解码器
量化来源	Bielik-1.5B-v3.0-Instruct
微调来源	Bielik-1.5B-v3
许可证	Apache 2.0 和使用条款

模型量化负责人

Remigiusz Kinas^SpeakLeash - 团队领导、概念设计、校准数据准备、流程创建和量化模型交付。

技术报告

技术报告链接

🔧 技术细节

本模型通过将 Bielik-1.5B-v3.0-Instruct 的权重和激活值量化为 FP8 数据类型获得。使用 AutoFP8 进行量化，这种优化将每个参数的位数从 16 位减少到 8 位，从而使磁盘大小和 GPU 内存需求大约降低 50%。仅对 Transformer 块内线性算子的权重和激活值进行量化，采用对称的逐张量量化，即使用单一线性缩放映射量化后的权重和激活值的 FP8 表示。