🚀 Bielik-1.5B-v3.0-Instruct-FP8-Dynamic
该模型通过将 Bielik-1.5B-v3.0-Instruct 的权重和激活值量化为 FP8 数据类型而获得,可用于 vLLM >= 0.5.0 或 SGLang 进行推理。
🚀 快速开始
本模型可使用 vLLM 后端高效部署,也可使用 SGLang Runtime 进行推理,以下是具体使用示例。
✨ 主要特性
- 量化优化:使用 AutoFP8 进行量化,将每个参数的位数从 16 位减少到 8 位,磁盘大小和 GPU 内存需求大约降低 50%。
- 部分量化:仅对 Transformer 块内线性算子的权重和激活值进行量化,采用对称的逐张量量化。
- 计算支持:支持在计算能力 > 8.9 的英伟达 GPU(如 Ada Lovelace、Hopper)上进行 FP8 计算。
💻 使用示例
基础用法(使用 vLLM)
from vllm import LLM, SamplingParams
from transformers import AutoTokenizer
model_id = "speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic"
sampling_params = SamplingParams(temperature=0.2, top_p=0.95, max_tokens=4096)
tokenizer = AutoTokenizer.from_pretrained(model_id)
messages = [
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
]
prompts = tokenizer.apply_chat_template(messages, tokenize=False)
llm = LLM(model=model_id, max_model_len=4096)
outputs = llm.generate(prompts, sampling_params)
generated_text = outputs[0].outputs[0].text
print(generated_text)
vLLM 还支持兼容 OpenAI 的服务,更多详细信息请参阅 文档。
高级用法(使用 SGLang Runtime)
首先启动 SGLang Runtime 服务器:
python -m sglang.launch_server --model-path speakleash/Bielik-1.5B-v3.0-Instruct-FP8-Dynamic --port 30000
然后可以发送 HTTP 请求或使用兼容 OpenAI 的 API:
import openai
client = openai.Client(
base_url="http://127.0.0.1:30000/v1", api_key="EMPTY")
response = client.chat.completions.create(
model="default",
messages=[
{"role": "system", "content": "Jeste≈õ pomocnym asystentem Bielik."},
{"role": "user", "content": "Kim był Mikołaj Kopernik i z czego zasłynął?"},
],
temperature=0,
max_tokens=4096,
)
print(response)
📚 详细文档
模型描述
模型量化负责人
技术报告
技术报告链接
🔧 技术细节
本模型通过将 Bielik-1.5B-v3.0-Instruct 的权重和激活值量化为 FP8 数据类型获得。使用 AutoFP8 进行量化,这种优化将每个参数的位数从 16 位减少到 8 位,从而使磁盘大小和 GPU 内存需求大约降低 50%。仅对 Transformer 块内线性算子的权重和激活值进行量化,采用对称的逐张量量化,即使用单一线性缩放映射量化后的权重和激活值的 FP8 表示。
📄 许可证
本模型采用 Apache 2.0 许可证和 使用条款。
⚠️ 重要提示
请注意,量化模型的响应质量可能会降低,并且可能会出现幻觉现象!
📞 联系我们
如果您有任何问题或建议,请使用讨论标签。如果您想直接联系我们,请加入我们的 Discord SpeakLeash。