🚀 Bielik-1.5B-v3-Instruct
Bielik-1.5B-v3-Instruct是一个拥有16亿参数的生成式文本模型。它是Bielik-1.5B-v3的指令微调版本。该模型是开放科学/开源项目SpeakLeash与高性能计算(HPC)中心ACK Cyfronet AGH独特合作的成果。它基于SpeakLeash团队精心挑选和处理的波兰语文本语料库进行开发和训练,借助了波兰的大规模计算基础设施,特别是在PLGrid环境中,更确切地说是在ACK Cyfronet AGH高性能计算中心。Bielik-1.5B-v3-Instruct的创建和训练得到了计算资助项目编号PLG/2024/017214和PLG/2025/018338的支持,在Athena和Helios超级计算机上进行,这使得模型能够利用大规模机器学习过程所需的前沿技术和计算资源。因此,该模型展现出了卓越的理解和处理波兰语的能力,能够提供准确的响应,并高精度地执行各种语言任务。
📚 技术报告:https://arxiv.org/abs/2505.02550
✨ 主要特性
- 基于波兰语文本语料库开发和训练,对波兰语的理解和处理能力出色。
- 经过指令微调,能准确响应并高精度执行多种语言任务。
- 借助前沿技术和大规模计算资源进行训练。
📚 详细文档
模型
SpeakLeash团队正在开发自己的波兰语指令集,该指令集由注释人员不断扩展和完善。其中一部分经过人工验证和修正的指令被用于训练。此外,由于高质量的波兰语指令有限,团队使用Bielik 11B v2.3生成了合成指令并用于训练。训练使用的数据集包含超过1900万条指令,由超过120亿个标记组成。
为了使模型符合用户偏好,团队测试了多种不同的技术:DPO、PPO、KTO、SiMPO。最终采用了DPO-Positive方法,该方法利用了生成的和人工修正的示例,并由元模型进行评分。一个包含超过111,000个不同长度示例的数据集被用于处理不同方面的响应风格。该数据集经过奖励模型的过滤和评估,以选择所选和拒绝之间具有适当差异水平的指令。DPO-P引入的新颖之处在于多轮对话的引入。
Bielik指令模型使用了由Krzysztof Ociepa实现的名为ALLaMo的原创开源框架进行训练。该框架允许用户以快速高效的方式训练与LLaMA和Mistral架构相似的语言模型。
模型描述
聊天模板
Bielik-1.5B-v3-Instruct使用ChatML作为提示格式。
例如:
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
这种格式可以通过apply_chat_template()
方法作为聊天模板使用:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model_name = "speakleash/Bielik-1.5B-v3-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
messages = [
{"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
{"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
{"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
{"role": "user", "content": "Która jest najcieplejsza?"}
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = input_ids.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
上例中通过apply_chat_template
完全格式化的输入对话如下:
<s><|im_start|> system
Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim.<|im_end|>
<|im_start|> user
Jakie mamy pory roku w Polsce?<|im_end|>
<|im_start|> assistant
W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|>
<|im_start|> user
Która jest najcieplejsza?<|im_end|>
🔧 技术细节
训练数据
训练数据来自SpeakLeash团队精心挑选和处理的波兰语文本语料库,训练数据集包含超过1900万条指令,由超过120亿个标记组成。
微调技术
为使模型符合用户偏好,测试了DPO、PPO、KTO、SiMPO等多种技术,最终采用DPO-Positive方法,利用生成和人工修正的示例,并由元模型评分。使用包含超过111,000个不同长度示例的数据集处理不同响应风格,经奖励模型过滤和评估选择合适指令。
训练框架
使用ALLaMo开源框架训练,该框架允许快速高效训练与LLaMA和Mistral架构相似的语言模型。
🚫 局限性和偏差
Bielik-1.5B-v3-Instruct只是一个快速演示,表明基础模型可以很容易地进行微调以实现令人信服和有前景的性能。它没有任何审核机制。我们期待与社区合作,使模型遵守规则,以便在需要审核输出的环境中部署。
Bielik-1.5B-v3-Instruct可能会产生事实错误的输出,因此不应依赖它来产生事实准确的数据。Bielik-1.5B-v3-Instruct是在各种公共数据集上训练的。虽然已经尽力清理训练数据,但该模型仍有可能生成淫秽、虚假、有偏见或其他冒犯性的输出。
📄 许可证
本模型使用Apache 2.0许可证和使用条款。
📖 引用
请使用以下格式引用此模型:
@misc{ociepa2025bielikv3smalltechnical,
title={Bielik v3 Small: Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wróbel and Adrian Gwoździej},
year={2025},
eprint={2505.02550},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02550},
}
@misc{Bielik15Bv3i,
title = {Bielik-1.5B-v3-Instruct model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof and {SpeakLeash Team} and {Cyfronet Team}},
year = {2025},
url = {https://huggingface.co/speakleash/Bielik-1.5B-v3-Instruct},
note = {Accessed: 2025-05-06}, % change this date
urldate = {2025-05-06} % change this date
}
@unpublished{Bielik15Bv33a,
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof},
title = {Bielik: A Family of Large Language Models for the Polish Language - Development, Insights, and Evaluation},
year = {2024},
}
👥 模型训练负责人
如果没有整个SpeakLeash团队的奉献和努力,这个模型就不可能创建出来,他们的贡献是无价的。由于许多人的辛勤工作,才有可能收集到大量的波兰语内容,并在开放科学项目SpeakLeash和高性能计算中心ACK Cyfronet AGH之间建立了合作关系。为模型创建做出贡献的人员包括:
Sebastian Kondracki、
Igor Ciuciura、
Szymon Baczyński、
Jacek Chwiła、
Dominika Basaj、
Kuba Sołtys、
Karol Jezierski、
Anna Przybył、
Agnieszka Ratajska、
Witold Wydmański、
Izabela Babis、
Nina Babis。
ACK Cyfronet AGH团队的成员提供了宝贵的支持和专业知识,他们是:
Szymon Mazurek、
Marek Magryś、
Mieszko Cholewa 。
我们衷心感谢波兰高性能计算基础设施PLGrid(高性能计算中心:ACK Cyfronet AGH)通过计算资助项目编号PLG/2024/017214和PLG/2025/018338提供的计算机设施和支持。
📞 联系我们
如果您有任何问题或建议,请使用讨论标签。如果您想直接联系我们,请加入我们的Discord SpeakLeash。