🚀 Bielik-4.5B-v3
Bielik-4.5B-v3是一個生成式文本模型,擁有46億個參數。該模型是開放科學/開源項目SpeakLeash與高性能計算中心ACK Cyfronet AGH獨特合作的成果。它基於SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫進行開發和訓練,藉助了波蘭的大規模計算基礎設施,特別是PLGrid環境,具體為ACK Cyfronet AGH高性能計算中心。在計算資助編號PLG/2024/017214和PLG/2025/018338的支持下,Bielik-4.5B-v3在Athena和Helios超級計算機上完成創建和訓練,這使得模型能夠利用前沿技術和大規模機器學習過程所需的計算資源。因此,該模型在理解和處理波蘭語方面表現出色,能夠提供準確的響應,並高精度地執行各種語言任務。
這是一個基礎模型,適用於大多數用例的進一步微調。如果您正在尋找一個可以直接用於聊天或遵循指令的模型,請使用Bielik-4.5B-v3-Instruct。
技術報告:https://arxiv.org/abs/2505.02550
🚀 快速開始
這個模型可以使用AutoModelForCausalLM
功能輕鬆加載。
基礎用法
from transformers import AutoTokenizer, AutoModelForCausalLM
model_name = "speakleash/Bielik-4.5B-v3"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)
高級用法
import torch
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)
然後,您可以使用HuggingFace的Pipelines
來生成文本:
import transformers
text = "Najważniejszym celem człowieka na ziemi jest"
pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
print(f"Result: {seq['generated_text']}")
生成的輸出:
Najważniejszym celem człowieka na ziemi jest życie w pokoju, harmonii i miłości. Dla każdego z nas bardzo ważne jest, aby otaczać się kochanymi osobami.
✨ 主要特性
- 基於波蘭語文本語料庫訓練,對波蘭語的理解和處理能力出色。
- 藉助大規模計算基礎設施和前沿技術,能夠高精度執行各種語言任務。
- 可通過
AutoModelForCausalLM
功能輕鬆加載,方便使用。
📦 安裝指南
文檔未提及具體安裝步驟,暫不提供。
📚 詳細文檔
模型
Bielik-4.5B-v3模型在ACK Cyfronet AGH的Helios超級計算機上進行訓練,使用了256張NVidia GH200顯卡。
訓練數據集由通過SpeakLeash項目收集並提供的波蘭語文本以及CommonCrawl數據的一個子集組成。我們使用了2920億個標記進行了1.2個週期的訓練。
Bielik-4.5B-v3模型使用了由Krzysztof Ociepa實現的名為ALLaMo的原始開源框架進行訓練。這個框架允許用戶以快速高效的方式訓練與LLaMA和Mistral架構類似的語言模型。
模型描述
質量評估
為了評估波蘭語原文的文本質量,我們準備並創建了一個XGBoost分類模型。該模型基於93個特徵,如未登錄詞與所有詞的比例(OOVs)、名詞和動詞的數量、平均句子長度等。模型輸出給定文檔的類別(高、中或低)以及相應的概率。這種方法允許我們實現一個專用的管道來選擇文檔,我們使用了質量指數為高且概率超過90%的條目。
這種過濾和適當的文本選擇為訓練提供了一個精簡且高質量的波蘭語文本數據庫。
🔧 技術細節
Bielik-4.5B-v3模型訓練在ACK Cyfronet AGH的Helios超級計算機上進行,使用256張NVidia GH200顯卡。訓練數據集包含通過SpeakLeash項目收集的波蘭語文本和CommonCrawl數據子集,使用2920億個標記進行1.2個週期訓練。模型藉助ALLaMo開源框架訓練,該框架由Krzysztof Ociepa實現,可讓用戶快速高效地訓練與LLaMA和Mistral架構類似的語言模型。
📄 許可證
本模型採用Apache 2.0許可證和使用條款。
⚠️ 注意事項
侷限性和偏差
Bielik-4.5B-v3未經微調不適合直接部署。在沒有進一步的防護措施和用戶同意的情況下,不應將其用於與人類的交互。
Bielik-4.5B-v3可能會產生事實錯誤的輸出,因此不應依賴它來生成事實準確的數據。該模型在各種公共數據集上進行訓練,儘管我們已盡力清理訓練數據,但仍有可能生成淫穢、虛假、有偏見或其他冒犯性的輸出。
📖 引用
請使用以下格式引用此模型:
@misc{ociepa2025bielikv3smalltechnical,
title={Bielik v3 Small: Technical Report},
author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wrόbel and Adrian Gwoździej},
year={2025},
eprint={2505.02550},
archivePrefix={arXiv},
primaryClass={cs.LG},
url={https://arxiv.org/abs/2505.02550},
}
@misc{Bielik11Bv2b,
title = {Bielik-45B-v3 model card},
author = {Ociepa, Krzysztof and Flis, Łukasz and Wrόbel, Krzysztof and Gwoździej, Adrian and {SpeakLeash Team} and {Cyfronet Team}},
year = {2025},
url = {https://huggingface.co/speakleash/Bielik-4.5B-v3},
note = {Accessed: 2025-05-06},
urldate = {2025-05-06}
}
👥 模型訓練團隊
如果沒有整個SpeakLeash團隊的奉獻和努力,這個模型就無法創建,他們的貢獻是無價的。由於許多人的辛勤工作,我們才能夠收集大量的波蘭語內容,並在開放科學項目SpeakLeash和高性能計算中心ACK Cyfronet AGH之間建立合作。為模型創建做出貢獻的個人包括:
Sebastian Kondracki、
Igor Ciuciura、
Szymon Baczyński、
Jacek Chwila、
Dominika Basaj、
Kuba Sołtys、
Karol Jezierski、
Anna Przybyl、
Agnieszka Ratajska、
Witold Wydmański、
Izabela Babis、
Nina Babis。
ACK Cyfronet AGH團隊的成員提供了寶貴的支持和專業知識:
Szymon Mazurek、
Marek Magryś、
Mieszko Cholewa 。
我們衷心感謝波蘭高性能計算基礎設施PLGrid(高性能計算中心:ACK Cyfronet AGH)通過計算資助編號PLG/2024/017214和PLG/2025/018338提供的計算機設施和支持。
📞 聯繫我們
如果您有任何問題或建議,請使用討論標籤。如果您想直接聯繫我們,請加入我們的Discord SpeakLeash。