🚀 Bielik-4.5B-v3
Bielik-4.5B-v3是一个生成式文本模型,拥有46亿个参数。该模型是开放科学/开源项目SpeakLeash与高性能计算中心ACK Cyfronet AGH独特合作的成果。它基于SpeakLeash团队精心挑选和处理的波兰语文本语料库进行开发和训练,借助了波兰的大规模计算基础设施,特别是PLGrid环境,具体为ACK Cyfronet AGH高性能计算中心。在计算资助编号PLG/2024/017214和PLG/2025/018338的支持下,Bielik-4.5B-v3在Athena和Helios超级计算机上完成创建和训练,这使得模型能够利用前沿技术和大规模机器学习过程所需的计算资源。因此,该模型在理解和处理波兰语方面表现出色,能够提供准确的响应,并高精度地执行各种语言任务。
这是一个基础模型,适用于大多数用例的进一步微调。如果您正在寻找一个可以直接用于聊天或遵循指令的模型,请使用Bielik-4.5B-v3-Instruct。
技术报告:https://arxiv.org/abs/2505.02550
🚀 快速开始
这个模型可以使用AutoModelForCausalLM
功能轻松加载。
基础用法
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "speakleash/Bielik-4.5B-v3"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
高级用法
import torch
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
然后,您可以使用HuggingFace的Pipelines
来生成文本:
import transformers
text = "Najważniejszym celem człowieka na ziemi jest"
pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
生成的输出:
Najważniejszym celem człowieka na ziemi jest życie w pokoju, harmonii i miłości. Dla każdego z nas bardzo ważne jest, aby otaczać się kochanymi osobami.
✨ 主要特性
- 基于波兰语文本语料库训练,对波兰语的理解和处理能力出色。
- 借助大规模计算基础设施和前沿技术,能够高精度执行各种语言任务。
- 可通过
AutoModelForCausalLM
功能轻松加载,方便使用。
📦 安装指南
文档未提及具体安装步骤,暂不提供。
📚 详细文档
模型
Bielik-4.5B-v3模型在ACK Cyfronet AGH的Helios超级计算机上进行训练,使用了256张NVidia GH200显卡。
训练数据集由通过SpeakLeash项目收集并提供的波兰语文本以及CommonCrawl数据的一个子集组成。我们使用了2920亿个标记进行了1.2个周期的训练。
Bielik-4.5B-v3模型使用了由Krzysztof Ociepa实现的名为ALLaMo的原始开源框架进行训练。这个框架允许用户以快速高效的方式训练与LLaMA和Mistral架构类似的语言模型。
模型描述
质量评估
为了评估波兰语原文的文本质量,我们准备并创建了一个XGBoost分类模型。该模型基于93个特征,如未登录词与所有词的比例(OOVs)、名词和动词的数量、平均句子长度等。模型输出给定文档的类别(高、中或低)以及相应的概率。这种方法允许我们实现一个专用的管道来选择文档,我们使用了质量指数为高且概率超过90%的条目。
这种过滤和适当的文本选择为训练提供了一个精简且高质量的波兰语文本数据库。
🔧 技术细节
Bielik-4.5B-v3模型训练在ACK Cyfronet AGH的Helios超级计算机上进行,使用256张NVidia GH200显卡。训练数据集包含通过SpeakLeash项目收集的波兰语文本和CommonCrawl数据子集,使用2920亿个标记进行1.2个周期训练。模型借助ALLaMo开源框架训练,该框架由Krzysztof Ociepa实现,可让用户快速高效地训练与LLaMA和Mistral架构类似的语言模型。
📄 许可证
本模型采用Apache 2.0许可证和使用条款。
⚠️ 注意事项
局限性和偏差
Bielik-4.5B-v3未经微调不适合直接部署。在没有进一步的防护措施和用户同意的情况下,不应将其用于与人类的交互。
Bielik-4.5B-v3可能会产生事实错误的输出,因此不应依赖它来生成事实准确的数据。该模型在各种公共数据集上进行训练,尽管我们已尽力清理训练数据,但仍有可能生成淫秽、虚假、有偏见或其他冒犯性的输出。
📖 引用
请使用以下格式引用此模型:
@misc{ociepa2025bielikv3smalltechnical,
title={Bielik v3 Small: Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wrόbel and Adrian Gwoździej},
year={2025},
eprint={2505.02550},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02550},
}
@misc{Bielik11Bv2b,
title = {Bielik-45B-v3 model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Wrόbel, Krzysztof and Gwoździej, Adrian and {SpeakLeash Team} and {Cyfronet Team}},
year = {2025},
url = {https://huggingface.co/speakleash/Bielik-4.5B-v3},
note = {Accessed: 2025-05-06},
urldate = {2025-05-06}
}
👥 模型训练团队
如果没有整个SpeakLeash团队的奉献和努力,这个模型就无法创建,他们的贡献是无价的。由于许多人的辛勤工作,我们才能够收集大量的波兰语内容,并在开放科学项目SpeakLeash和高性能计算中心ACK Cyfronet AGH之间建立合作。为模型创建做出贡献的个人包括:
Sebastian Kondracki、
Igor Ciuciura、
Szymon Baczyński、
Jacek Chwila、
Dominika Basaj、
Kuba Sołtys、
Karol Jezierski、
Anna Przybyl、
Agnieszka Ratajska、
Witold Wydmański、
Izabela Babis、
Nina Babis。
ACK Cyfronet AGH团队的成员提供了宝贵的支持和专业知识:
Szymon Mazurek、
Marek Magryś、
Mieszko Cholewa 。
我们衷心感谢波兰高性能计算基础设施PLGrid(高性能计算中心:ACK Cyfronet AGH)通过计算资助编号PLG/2024/017214和PLG/2025/018338提供的计算机设施和支持。
📞 联系我们
如果您有任何问题或建议,请使用讨论标签。如果您想直接联系我们,请加入我们的Discord SpeakLeash。