模型简介
模型特点
模型能力
使用案例
🚀 Bielik-11B-v2.3-Instruct
Bielik-11B-v2.3-Instruct是一个拥有110亿参数的生成式文本模型。它是Bielik-11B-v2.0-Instruct、Bielik-11B-v2.1-Instruct和Bielik-11B-v2.2-Instruct模型的线性合并,而这几个模型又是Bielik-11B-v2的指令微调版本。该模型是开放科学/开源项目SpeakLeash与高性能计算中心ACK Cyfronet AGH独特合作的成果。它基于由SpeakLeash团队精心挑选和处理的波兰语文本语料库进行开发和训练,利用了波兰的大规模计算基础设施,特别是在PLGrid环境中,更确切地说是ACK Cyfronet AGH高性能计算中心。Bielik-11B-v2.3-Instruct的创建和训练得到了计算资助编号PLG/2024/016951的支持,在Athena和Helios超级计算机上进行,这使得它能够使用大规模机器学习过程中必不可少的前沿技术和计算资源。因此,该模型在理解和处理波兰语方面表现出色,能够提供准确的响应,并高精度地执行各种语言任务。
技术报告:https://arxiv.org/abs/2505.02410
聊天竞技场*:https://arena.speakleash.org.pl/
*聊天竞技场是一个用于测试和比较不同人工智能语言模型的平台,用户可以评估它们的性能和质量。
✨ 主要特性
- 多模型合并:由多个Bielik系列模型线性合并而成,融合了多个模型的优势。
- 波兰语优化:基于波兰语文本语料库进行开发和训练,对波兰语的理解和处理能力出色。
- 性能出色:在多个基准测试中表现优异,在波兰语和英语任务中都展现出良好的性能。
📦 安装指南
文档中未提及安装步骤,暂无法提供。
💻 使用示例
基础用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model_name = "speakleash/Bielik-11B-v2.3-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
messages = [
{"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyczerpująco w języku polskim."},
{"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
{"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
{"role": "user", "content": "Która jest najcieplejsza?"}
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = input_ids.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
高级用法
# Bielik-11B-v2.3-Instruct使用[ChatML](https://github.com/cognitivecomputations/OpenChatML)作为提示格式。
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | 因果解码器模型 |
合并来源 | Bielik-11B-v2.0-Instruct、Bielik-11B-v2.1-Instruct、Bielik-11B-v2.2-Instruct |
语言 | 波兰语 |
许可证 | Apache 2.0和使用条款 |
量化模型
为了满足不同用户的需求,提供了Bielik-11B-v2.3-Instruct模型的量化版本:
- GGUF - Q4_K_M, Q5_K_M, Q6_K, Q8_0
- GPTQ - 4bit
- FP8 (vLLM, SGLang - Ada Lovelace, Hopper优化)
- GGUF - 实验性 - IQ imatrix IQ1_M, IQ2_XXS, IQ3_XXS, IQ4_XS和校准后的Q4_K_M, Q5_K_M, Q6_K, Q8_0
请注意,量化模型生成的答案质量可能低于完整版本。
聊天模板
Bielik-11B-v2.3-Instruct使用ChatML作为提示格式。
例如:
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
这种格式可以通过apply_chat_template()
方法作为聊天模板使用。
🔧 技术细节
- 训练数据:SpeakLeash团队正在开发自己的波兰语指令集,并由注释人员不断扩展和完善。部分经过手动验证和修正的指令用于训练。此外,由于高质量的波兰语指令有限,使用Mixtral 8x22B生成了合成指令并用于训练。训练数据集包含超过2000万条指令,由超过100亿个标记组成。
- 改进策略:为了应对指令质量参差不齐导致的模型性能下降问题,引入了以下改进策略:
- 加权标记级损失:受离线强化学习和C-RLFT的启发。
- 自适应学习率:受学习率与批量大小关系研究的启发。
- 掩码提示标记
- 模型对齐:为了使模型与用户偏好对齐,测试了多种技术,最终采用了DPO-Positive方法,利用了生成和手动修正的示例,并由元模型进行评分。使用了包含超过66000个不同长度示例的数据集,通过奖励模型进行过滤和评估,以选择合适的指令。该方法的新颖之处在于引入了多轮对话。
- 训练框架:使用由Krzysztof Ociepa实现的开源框架ALLaMo进行训练,该框架允许用户快速高效地训练与LLaMA和Mistral架构类似的语言模型。
- 模型合并:由Remigiusz Kinas使用mergekit以float16精度将多个模型进行合并。
📄 许可证
该模型使用Apache 2.0许可证和使用条款。
📈 评估结果
Bielik-11B-v2.3-Instruct在多个基准测试中进行了评估,以评估其在各种任务和语言中的性能。
Open PL LLM Leaderboard
模型 | 参数(B) | 平均得分 |
---|---|---|
Meta-Llama-3.1-405B-Instruct-FP8,API | 405 | 69.44 |
Mistral-Large-Instruct-2407 | 123 | 69.11 |
Qwen2-72B-Instruct | 72 | 65.87 |
Bielik-11B-v2.3-Instruct | 11 | 65.71 |
Bielik-11B-v2.2-Instruct | 11 | 65.57 |
Meta-Llama-3.1-70B-Instruct | 70 | 65.49 |
Bielik-11B-v2.1-Instruct | 11 | 65.45 |
Mixtral-8x22B-Instruct-v0.1 | 141 | 65.23 |
Bielik-11B-v2.0-Instruct | 11 | 64.98 |
Meta-Llama-3-70B-Instruct | 70 | 64.45 |
Athene-70B | 70 | 63.65 |
WizardLM-2-8x22B | 141 | 62.35 |
Qwen1.5-72B-Chat | 72 | 58.67 |
Qwen2-57B-A14B-Instruct | 57 | 56.89 |
glm-4-9b-chat | 9 | 56.61 |
aya-23-35B | 35 | 56.37 |
Phi-3.5-MoE-instruct | 41.9 | 56.34 |
openchat-3.5-0106-gemma | 7 | 55.69 |
Mistral-Nemo-Instruct-2407 | 12 | 55.27 |
SOLAR-10.7B-Instruct-v1.0 | 10.7 | 55.24 |
Mixtral-8x7B-Instruct-v0.1 | 46.7 | 55.07 |
Bielik-7B-Instruct-v0.1 | 7 | 44.70 |
trurl-2-13b-academic | 13 | 36.28 |
trurl-2-7b | 7 | 26.93 |
结果表明:
- 同类别表现卓越:在参数少于70B的模型中表现优于其他模型,展示了其高效性和有效性。
- 与大型模型竞争:得分65.71,与70B参数范围的模型表现相当,体现了其先进的架构和训练方法。
- 较前版本显著提升:相比前作Bielik-7B-Instruct-v0.1有明显提升。
- 波兰语模型领先:在波兰语模型中处于领先地位,是波兰自然语言处理任务的重要资源。
Open LLM Leaderboard
模型 | 平均得分 | arc_challenge | hellaswag | truthfulqa_mc2 | mmlu | winogrande | gsm8k |
---|---|---|---|---|---|---|---|
Bielik-11B-v2.2-Instruct | 69.86 | 59.90 | 80.16 | 58.34 | 64.34 | 75.30 | 81.12 |
Bielik-11B-v2.3-Instruct | 69.82 | 59.30 | 80.11 | 57.42 | 64.57 | 76.24 | 81.27 |
Bielik-11B-v2.1-Instruct | 69.82 | 59.56 | 80.20 | 59.35 | 64.18 | 75.06 | 80.59 |
Bielik-11B-v2.0-Instruct | 68.04 | 58.62 | 78.65 | 54.65 | 63.71 | 76.32 | 76.27 |
Bielik-11B-v2 | 65.87 | 60.58 | 79.84 | 46.13 | 63.06 | 77.82 | 67.78 |
Mistral-7B-Instruct-v0.2 | 65.71 | 63.14 | 84.88 | 68.26 | 60.78 | 77.19 | 40.03 |
Bielik-7B-Instruct-v0.1 | 51.26 | 47.53 | 68.91 | 49.47 | 46.18 | 65.51 | 29.95 |
结果显示:
- 英语任务表现出色:在英语任务上有显著提升,比基础模型提高4分,比Bielik-7B-Instruct-v0.1提高18分。
- 多语言通用性:展示了在波兰语和英语任务中的通用性,体现了指令微调过程的有效性。
波兰MT-Bench
MT-Bench英语
模型 | 得分 |
---|---|
Bielik-11B-v2.1 | 8.537500 |
Bielik-11B-v2.3 | 8.531250 |
Bielik-11B-v2.2 | 8.390625 |
Bielik-11B-v2.0 | 8.159375 |
MT-Bench波兰语
模型 | 参数(B) | 得分 |
---|---|---|
Qwen2-72B-Instruct | 72 | 8.775000 |
Mistral-Large-Instruct-2407 (123B) | 123 | 8.662500 |
gemma-2-27b-it | 27 | 8.618750 |
Bielik-11B-v2.3-Instruct | 11 | 8.556250 |
Mixtral-8x22b | 141 | 8.231250 |
Meta-Llama-3.1-405B-Instruct | 405 | 8.168750 |
Meta-Llama-3.1-70B-Instruct | 70 | 8.150000 |
Bielik-11B-v2.2-Instruct | 11 | 8.115625 |
Bielik-11B-v2.1-Instruct | 11 | 7.996875 |
gpt-3.5-turbo | 未知 | 7.868750 |
Mixtral-8x7b | 46.7 | 7.637500 |
Bielik-11B-v2.0-Instruct | 11 | 7.562500 |
Mistral-Nemo-Instruct-2407 | 12 | 7.368750 |
openchat-3.5-0106-gemma | 7 | 6.812500 |
Mistral-7B-Instruct-v0.2 | 7 | 6.556250 |
Meta-Llama-3.1-8B-Instruct | 8 | 6.556250 |
Bielik-7B-Instruct-v0.1 | 7 | 6.081250 |
Mistral-7B-Instruct-v0.3 | 7 | 5.818750 |
Polka-Mistral-7B-SFT | 7 | 4.518750 |
trurl-2-7b | 7 | 2.762500 |
关键观察:
- 中型模型表现强劲:得分8.556250,领先于GPT-3.5-turbo等模型,在11B - 70B参数范围的模型中具有竞争力。
- 与大型模型竞争:与参数更多的模型表现接近,在资源受限的任务中具有吸引力。
- 较前版本显著提升:相比Bielik-7B-Instruct-v0.1得分提高近2.5分,展示了模型质量、优化和训练方法的进步。
波兰EQ-Bench
模型 | 参数(B) | 得分 |
---|---|---|
Mistral-Large-Instruct-2407 | 123 | 78.07 |
Meta-Llama-3.1-405B-Instruct-FP8 | 405 | 77.23 |
gpt-4o-2024-08-06 | ? | 75.15 |
gpt-4-turbo-2024-04-09 | ? | 74.59 |
Meta-Llama-3.1-70B-Instruct | 70 | 72.53 |
Qwen2-72B-Instruct | 72 | 71.23 |
Meta-Llama-3-70B-Instruct | 70 | 71.21 |
gpt-4o-mini-2024-07-18 | ? | 71.15 |
Bielik-11B-v2.3-Instruct | 11 | 70.86 |
WizardLM-2-8x22B | 141 | 69.56 |
Bielik-11B-v2.2-Instruct | 11 | 69.05 |
Bielik-11B-v2.0-Instruct | 11 | 68.24 |
Qwen1.5-72B-Chat | 72 | 68.03 |
Mixtral-8x22B-Instruct-v0.1 | 141 | 67.63 |
Bielik-11B-v2.1-Instruct | 11 | 60.07 |
Qwen1.5-32B-Chat | 32 | 59.63 |
openchat-3.5-0106-gemma | 7 | 59.58 |
aya-23-35B | 35 | 58.41 |
gpt-3.5-turbo | ? | 57.7 |
Qwen2-57B-A14B-Instruct | 57 | 57.64 |
Mixtral-8x7B-Instruct-v0.1 | 47 | 57.61 |
SOLAR-10.7B-Instruct-v1.0 | 10.7 | 55.21 |
Mistral-7B-Instruct-v0.2 | 7 | 47.02 |
MixEval
模型 | MixEval | MixEval-Hard |
---|---|---|
Bielik-11B-v2.1-Instruct | 74.55 | 45.00 |
Bielik-11B-v2.3-Instruct | 72.95 | 43.20 |
Bielik-11B-v2.2-Instruct | 72.35 | 39.65 |
Bielik-11B-v2.0-Instruct | 72.10 | 40.20 |
Mistral-7B-Instruct-v0.2 | 70.00 | 36.20 |
结果显示,Bielik-11B-v2.3-Instruct在MixEval基准测试中表现良好,在标准MixEval和MixEval-Hard上的得分分别为72.95和43.20。值得注意的是,在两个指标上都显著优于Mistral-7B-Instruct-v0.2,尽管基于相似的架构,但展示了其改进的能力。
⚠️ 局限性和偏差
Bielik-11B-v2.3-Instruct是一个快速演示,表明基础模型可以轻松微调以实现令人信服和有前景的性能。它没有任何审核机制。期待与社区合作,使模型遵守规则,以便在需要审核输出的环境中部署。该模型可能会产生事实错误的输出,不应依赖它来产生准确的事实数据。它基于各种公共数据集进行训练,尽管在清理训练数据方面付出了很大努力,但仍有可能生成不适当、虚假、有偏见或其他冒犯性的输出。
📖 引用
请使用以下格式引用此模型:
@misc{ociepa2025bielik11bv2technical,
title={Bielik 11B v2 Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wrόbel and Adrian Gwoździej and Remigiusz Kinas},
year={2025},
eprint={2505.02410},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.02410},
}
@misc{Bielik11Bv21i,
title = {Bielik-11B-v2.3-Instruct model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wrόbel, Krzysztof and {SpeakLeash Team} and {Cyfronet Team}},
year = {2024},
url = {https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct},
note = {Accessed: 2024-09-16}, % change this date
urldate = {2024-09-16} % change this date
}
@misc{ociepa2024bielik7bv01polish,
title={Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation},
author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wrόbel and Adrian Gwoździej and Remigiusz Kinas},
year={2024},
eprint={2410.18565},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.18565},
}
👥 模型训练负责人
- Krzysztof OciepaSpeakLeash - 团队领导、概念设计、数据准备、流程优化和训练监督
- Łukasz FlisCyfronet AGH - 协调和监督训练
- Remigiusz KinasSpeakLeash - 概念设计和协调DPO训练、数据准备
- Adrian GwoździejSpeakLeash - 数据准备和确保数据质量
- Krzysztof WrόbelSpeakLeash - 基准测试
该模型的创建离不开整个SpeakLeash团队的奉献和努力,他们的贡献是无价的。由于许多人的辛勤工作,才能够收集大量的波兰语内容,并建立了开放科学SpeakLeash项目与高性能计算中心ACK Cyfronet AGH之间的合作。为模型创建做出贡献的个人: Sebastian Kondracki、 Igor Ciuciura、 Pawel Kiszczak、 Szymon Baczyński、 Jacek Chwila、 Maria Filipkowska、 Jan Maria Kowalski、 Karol Jezierski、 Kacper Milan、 Jan Sowa、 Len Krawczyk、 Marta Seidler、 Agnieszka Ratajska、 Krzysztof Koziarek、 Szymon Pepliński、 Zuzanna Dabić、 Filip Bogacz、 Agnieszka Kosiak、 Izabela Babis、 Nina Babis。
ACK Cyfronet AGH团队的成员提供了宝贵的支持和专业知识: Szymon Mazurek、 Marek Magryś、 Mieszko Cholewa。
📞 联系我们
如果您有任何问题或建议,请使用讨论标签。如果您想直接联系我们,请加入我们的Discord SpeakLeash。



