🚀 Bielik-1.5B-v3-Instruct
Bielik-1.5B-v3-Instruct是一個擁有16億參數的生成式文本模型。它是Bielik-1.5B-v3的指令微調版本。該模型是開放科學/開源項目SpeakLeash與高性能計算(HPC)中心ACK Cyfronet AGH獨特合作的成果。它基於SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫進行開發和訓練,藉助了波蘭的大規模計算基礎設施,特別是在PLGrid環境中,更確切地說是在ACK Cyfronet AGH高性能計算中心。Bielik-1.5B-v3-Instruct的創建和訓練得到了計算資助項目編號PLG/2024/017214和PLG/2025/018338的支持,在Athena和Helios超級計算機上進行,這使得模型能夠利用大規模機器學習過程所需的前沿技術和計算資源。因此,該模型展現出了卓越的理解和處理波蘭語的能力,能夠提供準確的響應,並高精度地執行各種語言任務。
📚 技術報告:https://arxiv.org/abs/2505.02550
✨ 主要特性
- 基於波蘭語文本語料庫開發和訓練,對波蘭語的理解和處理能力出色。
- 經過指令微調,能準確響應並高精度執行多種語言任務。
- 藉助前沿技術和大規模計算資源進行訓練。
📚 詳細文檔
模型
SpeakLeash團隊正在開發自己的波蘭語指令集,該指令集由註釋人員不斷擴展和完善。其中一部分經過人工驗證和修正的指令被用於訓練。此外,由於高質量的波蘭語指令有限,團隊使用Bielik 11B v2.3生成了合成指令並用於訓練。訓練使用的數據集包含超過1900萬條指令,由超過120億個標記組成。
為了使模型符合用戶偏好,團隊測試了多種不同的技術:DPO、PPO、KTO、SiMPO。最終採用了DPO-Positive方法,該方法利用了生成的和人工修正的示例,並由元模型進行評分。一個包含超過111,000個不同長度示例的數據集被用於處理不同方面的響應風格。該數據集經過獎勵模型的過濾和評估,以選擇所選和拒絕之間具有適當差異水平的指令。DPO-P引入的新穎之處在於多輪對話的引入。
Bielik指令模型使用了由Krzysztof Ociepa實現的名為ALLaMo的原創開源框架進行訓練。該框架允許用戶以快速高效的方式訓練與LLaMA和Mistral架構相似的語言模型。
模型描述
聊天模板
Bielik-1.5B-v3-Instruct使用ChatML作為提示格式。
例如:
prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"
這種格式可以通過apply_chat_template()
方法作為聊天模板使用:
import torch
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda"
model_name = "speakleash/Bielik-1.5B-v3-Instruct"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
messages = [
{"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
{"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
{"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
{"role": "user", "content": "Która jest najcieplejsza?"}
]
input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")
model_inputs = input_ids.to(device)
model.to(device)
generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])
上例中通過apply_chat_template
完全格式化的輸入對話如下:
<s><|im_start|> system
Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim.<|im_end|>
<|im_start|> user
Jakie mamy pory roku w Polsce?<|im_end|>
<|im_start|> assistant
W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|>
<|im_start|> user
Która jest najcieplejsza?<|im_end|>
🔧 技術細節
訓練數據
訓練數據來自SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫,訓練數據集包含超過1900萬條指令,由超過120億個標記組成。
微調技術
為使模型符合用戶偏好,測試了DPO、PPO、KTO、SiMPO等多種技術,最終採用DPO-Positive方法,利用生成和人工修正的示例,並由元模型評分。使用包含超過111,000個不同長度示例的數據集處理不同響應風格,經獎勵模型過濾和評估選擇合適指令。
訓練框架
使用ALLaMo開源框架訓練,該框架允許快速高效訓練與LLaMA和Mistral架構相似的語言模型。
🚫 侷限性和偏差
Bielik-1.5B-v3-Instruct只是一個快速演示,表明基礎模型可以很容易地進行微調以實現令人信服和有前景的性能。它沒有任何審核機制。我們期待與社區合作,使模型遵守規則,以便在需要審核輸出的環境中部署。
Bielik-1.5B-v3-Instruct可能會產生事實錯誤的輸出,因此不應依賴它來產生事實準確的數據。Bielik-1.5B-v3-Instruct是在各種公共數據集上訓練的。雖然已經盡力清理訓練數據,但該模型仍有可能生成淫穢、虛假、有偏見或其他冒犯性的輸出。
📄 許可證
本模型使用Apache 2.0許可證和使用條款。
📖 引用
請使用以下格式引用此模型:
@misc{ociepa2025bielikv3smalltechnical,
title={Bielik v3 Small: Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wróbel and Adrian Gwoździej},
year={2025},
eprint={2505.02550},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02550},
}
@misc{Bielik15Bv3i,
title = {Bielik-1.5B-v3-Instruct model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof and {SpeakLeash Team} and {Cyfronet Team}},
year = {2025},
url = {https://huggingface.co/speakleash/Bielik-1.5B-v3-Instruct},
note = {Accessed: 2025-05-06}, % change this date
urldate = {2025-05-06} % change this date
}
@unpublished{Bielik15Bv33a,
author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof},
title = {Bielik: A Family of Large Language Models for the Polish Language - Development, Insights, and Evaluation},
year = {2024},
}
👥 模型訓練負責人
如果沒有整個SpeakLeash團隊的奉獻和努力,這個模型就不可能創建出來,他們的貢獻是無價的。由於許多人的辛勤工作,才有可能收集到大量的波蘭語內容,並在開放科學項目SpeakLeash和高性能計算中心ACK Cyfronet AGH之間建立了合作關係。為模型創建做出貢獻的人員包括:
Sebastian Kondracki、
Igor Ciuciura、
Szymon Baczyński、
Jacek Chwiła、
Dominika Basaj、
Kuba Sołtys、
Karol Jezierski、
Anna Przybył、
Agnieszka Ratajska、
Witold Wydmański、
Izabela Babis、
Nina Babis。
ACK Cyfronet AGH團隊的成員提供了寶貴的支持和專業知識,他們是:
Szymon Mazurek、
Marek Magryś、
Mieszko Cholewa 。
我們衷心感謝波蘭高性能計算基礎設施PLGrid(高性能計算中心:ACK Cyfronet AGH)通過計算資助項目編號PLG/2024/017214和PLG/2025/018338提供的計算機設施和支持。
📞 聯繫我們
如果您有任何問題或建議,請使用討論標籤。如果您想直接聯繫我們,請加入我們的Discord SpeakLeash。