模型概述
模型特點
模型能力
使用案例
🚀 Bielik-11B-v2.3-Instruct
Bielik-11B-v2.3-Instruct是一個擁有110億參數的生成式文本模型。它是Bielik-11B-v2.0-Instruct、Bielik-11B-v2.1-Instruct和Bielik-11B-v2.2-Instruct模型的線性合併,而這幾個模型又是Bielik-11B-v2的指令微調版本。該模型是開放科學/開源項目SpeakLeash與高性能計算中心ACK Cyfronet AGH獨特合作的成果。它基於由SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫進行開發和訓練,利用了波蘭的大規模計算基礎設施,特別是在PLGrid環境中,更確切地說是ACK Cyfronet AGH高性能計算中心。Bielik-11B-v2.3-Instruct的創建和訓練得到了計算資助編號PLG/2024/016951的支持,在Athena和Helios超級計算機上進行,這使得它能夠使用大規模機器學習過程中必不可少的前沿技術和計算資源。因此,該模型在理解和處理波蘭語方面表現出色,能夠提供準確的響應,並高精度地執行各種語言任務。
技術報告:https://arxiv.org/abs/2505.02410
聊天競技場*:https://arena.speakleash.org.pl/
*聊天競技場是一個用於測試和比較不同人工智能語言模型的平臺,用戶可以評估它們的性能和質量。
✨ 主要特性
- 多模型合併:由多個Bielik系列模型線性合併而成,融合了多個模型的優勢。
- 波蘭語優化:基於波蘭語文本語料庫進行開發和訓練,對波蘭語的理解和處理能力出色。
- 性能出色:在多個基準測試中表現優異,在波蘭語和英語任務中都展現出良好的性能。
📦 安裝指南
文檔中未提及安裝步驟,暫無法提供。
💻 使用示例
基礎用法
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # the device to load the model onto
model_name = "speakleash/Bielik-11B-v2.3-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
messages = [
{"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyczerpująco w języku polskim."},
{"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
{"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
{"role": "user", "content": "Która jest najcieplejsza?"}
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = input_ids.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
高級用法
# Bielik-11B-v2.3-Instruct使用[ChatML](https://github.com/cognitivecomputations/OpenChatML)作為提示格式。
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
模型類型 | 因果解碼器模型 |
合併來源 | Bielik-11B-v2.0-Instruct、Bielik-11B-v2.1-Instruct、Bielik-11B-v2.2-Instruct |
語言 | 波蘭語 |
許可證 | Apache 2.0和使用條款 |
量化模型
為了滿足不同用戶的需求,提供了Bielik-11B-v2.3-Instruct模型的量化版本:
- GGUF - Q4_K_M, Q5_K_M, Q6_K, Q8_0
- GPTQ - 4bit
- FP8 (vLLM, SGLang - Ada Lovelace, Hopper優化)
- GGUF - 實驗性 - IQ imatrix IQ1_M, IQ2_XXS, IQ3_XXS, IQ4_XS和校準後的Q4_K_M, Q5_K_M, Q6_K, Q8_0
請注意,量化模型生成的答案質量可能低於完整版本。
聊天模板
Bielik-11B-v2.3-Instruct使用ChatML作為提示格式。
例如:
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
這種格式可以通過apply_chat_template()
方法作為聊天模板使用。
🔧 技術細節
- 訓練數據:SpeakLeash團隊正在開發自己的波蘭語指令集,並由註釋人員不斷擴展和完善。部分經過手動驗證和修正的指令用於訓練。此外,由於高質量的波蘭語指令有限,使用Mixtral 8x22B生成了合成指令並用於訓練。訓練數據集包含超過2000萬條指令,由超過100億個標記組成。
- 改進策略:為了應對指令質量參差不齊導致的模型性能下降問題,引入了以下改進策略:
- 加權標記級損失:受離線強化學習和C-RLFT的啟發。
- 自適應學習率:受學習率與批量大小關係研究的啟發。
- 掩碼提示標記
- 模型對齊:為了使模型與用戶偏好對齊,測試了多種技術,最終採用了DPO-Positive方法,利用了生成和手動修正的示例,並由元模型進行評分。使用了包含超過66000個不同長度示例的數據集,通過獎勵模型進行過濾和評估,以選擇合適的指令。該方法的新穎之處在於引入了多輪對話。
- 訓練框架:使用由Krzysztof Ociepa實現的開源框架ALLaMo進行訓練,該框架允許用戶快速高效地訓練與LLaMA和Mistral架構類似的語言模型。
- 模型合併:由Remigiusz Kinas使用mergekit以float16精度將多個模型進行合併。
📄 許可證
該模型使用Apache 2.0許可證和使用條款。
📈 評估結果
Bielik-11B-v2.3-Instruct在多個基準測試中進行了評估,以評估其在各種任務和語言中的性能。
Open PL LLM Leaderboard
模型 | 參數(B) | 平均得分 |
---|---|---|
Meta-Llama-3.1-405B-Instruct-FP8,API | 405 | 69.44 |
Mistral-Large-Instruct-2407 | 123 | 69.11 |
Qwen2-72B-Instruct | 72 | 65.87 |
Bielik-11B-v2.3-Instruct | 11 | 65.71 |
Bielik-11B-v2.2-Instruct | 11 | 65.57 |
Meta-Llama-3.1-70B-Instruct | 70 | 65.49 |
Bielik-11B-v2.1-Instruct | 11 | 65.45 |
Mixtral-8x22B-Instruct-v0.1 | 141 | 65.23 |
Bielik-11B-v2.0-Instruct | 11 | 64.98 |
Meta-Llama-3-70B-Instruct | 70 | 64.45 |
Athene-70B | 70 | 63.65 |
WizardLM-2-8x22B | 141 | 62.35 |
Qwen1.5-72B-Chat | 72 | 58.67 |
Qwen2-57B-A14B-Instruct | 57 | 56.89 |
glm-4-9b-chat | 9 | 56.61 |
aya-23-35B | 35 | 56.37 |
Phi-3.5-MoE-instruct | 41.9 | 56.34 |
openchat-3.5-0106-gemma | 7 | 55.69 |
Mistral-Nemo-Instruct-2407 | 12 | 55.27 |
SOLAR-10.7B-Instruct-v1.0 | 10.7 | 55.24 |
Mixtral-8x7B-Instruct-v0.1 | 46.7 | 55.07 |
Bielik-7B-Instruct-v0.1 | 7 | 44.70 |
trurl-2-13b-academic | 13 | 36.28 |
trurl-2-7b | 7 | 26.93 |
結果表明:
- 同類別表現卓越:在參數少於70B的模型中表現優於其他模型,展示了其高效性和有效性。
- 與大型模型競爭:得分65.71,與70B參數範圍的模型表現相當,體現了其先進的架構和訓練方法。
- 較前版本顯著提升:相比前作Bielik-7B-Instruct-v0.1有明顯提升。
- 波蘭語模型領先:在波蘭語模型中處於領先地位,是波蘭自然語言處理任務的重要資源。
Open LLM Leaderboard
模型 | 平均得分 | arc_challenge | hellaswag | truthfulqa_mc2 | mmlu | winogrande | gsm8k |
---|---|---|---|---|---|---|---|
Bielik-11B-v2.2-Instruct | 69.86 | 59.90 | 80.16 | 58.34 | 64.34 | 75.30 | 81.12 |
Bielik-11B-v2.3-Instruct | 69.82 | 59.30 | 80.11 | 57.42 | 64.57 | 76.24 | 81.27 |
Bielik-11B-v2.1-Instruct | 69.82 | 59.56 | 80.20 | 59.35 | 64.18 | 75.06 | 80.59 |
Bielik-11B-v2.0-Instruct | 68.04 | 58.62 | 78.65 | 54.65 | 63.71 | 76.32 | 76.27 |
Bielik-11B-v2 | 65.87 | 60.58 | 79.84 | 46.13 | 63.06 | 77.82 | 67.78 |
Mistral-7B-Instruct-v0.2 | 65.71 | 63.14 | 84.88 | 68.26 | 60.78 | 77.19 | 40.03 |
Bielik-7B-Instruct-v0.1 | 51.26 | 47.53 | 68.91 | 49.47 | 46.18 | 65.51 | 29.95 |
結果顯示:
- 英語任務表現出色:在英語任務上有顯著提升,比基礎模型提高4分,比Bielik-7B-Instruct-v0.1提高18分。
- 多語言通用性:展示了在波蘭語和英語任務中的通用性,體現了指令微調過程的有效性。
波蘭MT-Bench
MT-Bench英語
模型 | 得分 |
---|---|
Bielik-11B-v2.1 | 8.537500 |
Bielik-11B-v2.3 | 8.531250 |
Bielik-11B-v2.2 | 8.390625 |
Bielik-11B-v2.0 | 8.159375 |
MT-Bench波蘭語
模型 | 參數(B) | 得分 |
---|---|---|
Qwen2-72B-Instruct | 72 | 8.775000 |
Mistral-Large-Instruct-2407 (123B) | 123 | 8.662500 |
gemma-2-27b-it | 27 | 8.618750 |
Bielik-11B-v2.3-Instruct | 11 | 8.556250 |
Mixtral-8x22b | 141 | 8.231250 |
Meta-Llama-3.1-405B-Instruct | 405 | 8.168750 |
Meta-Llama-3.1-70B-Instruct | 70 | 8.150000 |
Bielik-11B-v2.2-Instruct | 11 | 8.115625 |
Bielik-11B-v2.1-Instruct | 11 | 7.996875 |
gpt-3.5-turbo | 未知 | 7.868750 |
Mixtral-8x7b | 46.7 | 7.637500 |
Bielik-11B-v2.0-Instruct | 11 | 7.562500 |
Mistral-Nemo-Instruct-2407 | 12 | 7.368750 |
openchat-3.5-0106-gemma | 7 | 6.812500 |
Mistral-7B-Instruct-v0.2 | 7 | 6.556250 |
Meta-Llama-3.1-8B-Instruct | 8 | 6.556250 |
Bielik-7B-Instruct-v0.1 | 7 | 6.081250 |
Mistral-7B-Instruct-v0.3 | 7 | 5.818750 |
Polka-Mistral-7B-SFT | 7 | 4.518750 |
trurl-2-7b | 7 | 2.762500 |
關鍵觀察:
- 中型模型表現強勁:得分8.556250,領先於GPT-3.5-turbo等模型,在11B - 70B參數範圍的模型中具有競爭力。
- 與大型模型競爭:與參數更多的模型表現接近,在資源受限的任務中具有吸引力。
- 較前版本顯著提升:相比Bielik-7B-Instruct-v0.1得分提高近2.5分,展示了模型質量、優化和訓練方法的進步。
波蘭EQ-Bench
模型 | 參數(B) | 得分 |
---|---|---|
Mistral-Large-Instruct-2407 | 123 | 78.07 |
Meta-Llama-3.1-405B-Instruct-FP8 | 405 | 77.23 |
gpt-4o-2024-08-06 | ? | 75.15 |
gpt-4-turbo-2024-04-09 | ? | 74.59 |
Meta-Llama-3.1-70B-Instruct | 70 | 72.53 |
Qwen2-72B-Instruct | 72 | 71.23 |
Meta-Llama-3-70B-Instruct | 70 | 71.21 |
gpt-4o-mini-2024-07-18 | ? | 71.15 |
Bielik-11B-v2.3-Instruct | 11 | 70.86 |
WizardLM-2-8x22B | 141 | 69.56 |
Bielik-11B-v2.2-Instruct | 11 | 69.05 |
Bielik-11B-v2.0-Instruct | 11 | 68.24 |
Qwen1.5-72B-Chat | 72 | 68.03 |
Mixtral-8x22B-Instruct-v0.1 | 141 | 67.63 |
Bielik-11B-v2.1-Instruct | 11 | 60.07 |
Qwen1.5-32B-Chat | 32 | 59.63 |
openchat-3.5-0106-gemma | 7 | 59.58 |
aya-23-35B | 35 | 58.41 |
gpt-3.5-turbo | ? | 57.7 |
Qwen2-57B-A14B-Instruct | 57 | 57.64 |
Mixtral-8x7B-Instruct-v0.1 | 47 | 57.61 |
SOLAR-10.7B-Instruct-v1.0 | 10.7 | 55.21 |
Mistral-7B-Instruct-v0.2 | 7 | 47.02 |
MixEval
模型 | MixEval | MixEval-Hard |
---|---|---|
Bielik-11B-v2.1-Instruct | 74.55 | 45.00 |
Bielik-11B-v2.3-Instruct | 72.95 | 43.20 |
Bielik-11B-v2.2-Instruct | 72.35 | 39.65 |
Bielik-11B-v2.0-Instruct | 72.10 | 40.20 |
Mistral-7B-Instruct-v0.2 | 70.00 | 36.20 |
結果顯示,Bielik-11B-v2.3-Instruct在MixEval基準測試中表現良好,在標準MixEval和MixEval-Hard上的得分分別為72.95和43.20。值得注意的是,在兩個指標上都顯著優於Mistral-7B-Instruct-v0.2,儘管基於相似的架構,但展示了其改進的能力。
⚠️ 侷限性和偏差
Bielik-11B-v2.3-Instruct是一個快速演示,表明基礎模型可以輕鬆微調以實現令人信服和有前景的性能。它沒有任何審核機制。期待與社區合作,使模型遵守規則,以便在需要審核輸出的環境中部署。該模型可能會產生事實錯誤的輸出,不應依賴它來產生準確的事實數據。它基於各種公共數據集進行訓練,儘管在清理訓練數據方面付出了很大努力,但仍有可能生成不適當、虛假、有偏見或其他冒犯性的輸出。
📖 引用
請使用以下格式引用此模型:
@misc{ociepa2025bielik11bv2technical,
title={Bielik 11B v2 Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wrόbel and Adrian Gwoździej and Remigiusz Kinas},
year={2025},
eprint={2505.02410},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2505.02410},
}
@misc{Bielik11Bv21i,
title = {Bielik-11B-v2.3-Instruct model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wrόbel, Krzysztof and {SpeakLeash Team} and {Cyfronet Team}},
year = {2024},
url = {https://huggingface.co/speakleash/Bielik-11B-v2.3-Instruct},
note = {Accessed: 2024-09-16}, % change this date
urldate = {2024-09-16} % change this date
}
@misc{ociepa2024bielik7bv01polish,
title={Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation},
author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wrόbel and Adrian Gwoździej and Remigiusz Kinas},
year={2024},
eprint={2410.18565},
archivePrefix={arXiv},
primaryClass={cs.CL},
url={https://arxiv.org/abs/2410.18565},
}
👥 模型訓練負責人
- Krzysztof OciepaSpeakLeash - 團隊領導、概念設計、數據準備、流程優化和訓練監督
- Łukasz FlisCyfronet AGH - 協調和監督訓練
- Remigiusz KinasSpeakLeash - 概念設計和協調DPO訓練、數據準備
- Adrian GwoździejSpeakLeash - 數據準備和確保數據質量
- Krzysztof WrόbelSpeakLeash - 基準測試
該模型的創建離不開整個SpeakLeash團隊的奉獻和努力,他們的貢獻是無價的。由於許多人的辛勤工作,才能夠收集大量的波蘭語內容,並建立了開放科學SpeakLeash項目與高性能計算中心ACK Cyfronet AGH之間的合作。為模型創建做出貢獻的個人: Sebastian Kondracki、 Igor Ciuciura、 Pawel Kiszczak、 Szymon Baczyński、 Jacek Chwila、 Maria Filipkowska、 Jan Maria Kowalski、 Karol Jezierski、 Kacper Milan、 Jan Sowa、 Len Krawczyk、 Marta Seidler、 Agnieszka Ratajska、 Krzysztof Koziarek、 Szymon Pepliński、 Zuzanna Dabić、 Filip Bogacz、 Agnieszka Kosiak、 Izabela Babis、 Nina Babis。
ACK Cyfronet AGH團隊的成員提供了寶貴的支持和專業知識: Szymon Mazurek、 Marek Magryś、 Mieszko Cholewa。
📞 聯繫我們
如果您有任何問題或建議,請使用討論標籤。如果您想直接聯繫我們,請加入我們的Discord SpeakLeash。



