Bielik-1.5B-v3.0-Instruct開源波蘭語文本生成模型

首頁

Bielik 1.5B V3.0 Instruct

由speakleash開發

Bielik-1.5B-v3-Instruct是一款擁有16億參數的波蘭語生成式文本模型，基於Bielik-1.5B-v3進行指令微調，由SpeakLeash與ACK Cyfronet AGH合作開發。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #波蘭語指令微調 #多輪對話優化 #DPO強化學習

下載量 780

發布時間 : 4/18/2025

模型概述

該模型是Bielik-1.5B-v3的指令微調版本，專注于波蘭語理解和處理，能精準完成各類語言任務。訓練使用了SpeakLeash團隊精選的波蘭語語料庫，並在波蘭國家級計算基礎設施上完成。

模型特點

波蘭語優化

基於精選波蘭語語料庫訓練，具有卓越的波蘭語理解和處理能力

指令微調

使用超過1900萬條波蘭語指令進行微調，優化了響應風格和任務完成能力

高性能計算支持

訓練過程得到PLGrid環境中的HPC中心ACK Cyfronet AGH支持，使用Athena和Helios超級計算機

先進的訓練方法

採用DPO-Positive方法結合多輪對話訓練機制，優化模型對齊效果

模型能力

波蘭語文本生成

指令理解與執行

多輪對話

語言任務處理

使用案例

教育

波蘭文化知識問答

回答關於波蘭歷史、文化、地理等方面的問題

如示例所示能準確回答波蘭國徽上的圖案等問題

客服

波蘭語客服對話

處理波蘭語用戶的諮詢和問題

🚀 Bielik-1.5B-v3-Instruct

Bielik-1.5B-v3-Instruct是一個擁有16億參數的生成式文本模型。它是Bielik-1.5B-v3的指令微調版本。該模型是開放科學/開源項目SpeakLeash與高性能計算（HPC）中心ACK Cyfronet AGH獨特合作的成果。它基於SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫進行開發和訓練，藉助了波蘭的大規模計算基礎設施，特別是在PLGrid環境中，更確切地說是在ACK Cyfronet AGH高性能計算中心。Bielik-1.5B-v3-Instruct的創建和訓練得到了計算資助項目編號PLG/2024/017214和PLG/2025/018338的支持，在Athena和Helios超級計算機上進行，這使得模型能夠利用大規模機器學習過程所需的前沿技術和計算資源。因此，該模型展現出了卓越的理解和處理波蘭語的能力，能夠提供準確的響應，並高精度地執行各種語言任務。

📚 技術報告：https://arxiv.org/abs/2505.02550

✨ 主要特性

基於波蘭語文本語料庫開發和訓練，對波蘭語的理解和處理能力出色。
經過指令微調，能準確響應並高精度執行多種語言任務。
藉助前沿技術和大規模計算資源進行訓練。

📚 詳細文檔

模型

SpeakLeash團隊正在開發自己的波蘭語指令集，該指令集由註釋人員不斷擴展和完善。其中一部分經過人工驗證和修正的指令被用於訓練。此外，由於高質量的波蘭語指令有限，團隊使用Bielik 11B v2.3生成了合成指令並用於訓練。訓練使用的數據集包含超過1900萬條指令，由超過120億個標記組成。

為了使模型符合用戶偏好，團隊測試了多種不同的技術：DPO、PPO、KTO、SiMPO。最終採用了DPO-Positive方法，該方法利用了生成的和人工修正的示例，並由元模型進行評分。一個包含超過111,000個不同長度示例的數據集被用於處理不同方面的響應風格。該數據集經過獎勵模型的過濾和評估，以選擇所選和拒絕之間具有適當差異水平的指令。DPO-P引入的新穎之處在於多輪對話的引入。

Bielik指令模型使用了由Krzysztof Ociepa實現的名為ALLaMo的原創開源框架進行訓練。該框架允許用戶以快速高效的方式訓練與LLaMA和Mistral架構相似的語言模型。

模型描述

屬性	詳情
模型類型	因果解碼器
微調基礎	Bielik-1.5B-v3
語言	波蘭語
許可證	Apache 2.0和使用條款

聊天模板

Bielik-1.5B-v3-Instruct使用ChatML作為提示格式。

例如：

prompt = "<s><|im_start|> user\nJakie mamy pory roku?<|im_end|> \n<|im_start|> assistant\n"
completion = "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> \n"

這種格式可以通過apply_chat_template()方法作為聊天模板使用：

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer

device = "cuda" # the device to load the model onto

model_name = "speakleash/Bielik-1.5B-v3-Instruct"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)

messages = [
    {"role": "system", "content": "Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim."},
    {"role": "user", "content": "Jakie mamy pory roku w Polsce?"},
    {"role": "assistant", "content": "W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima."},
    {"role": "user", "content": "Która jest najcieplejsza?"}
]

input_ids = tokenizer.apply_chat_template(messages, return_tensors="pt")

model_inputs = input_ids.to(device)
model.to(device)

generated_ids = model.generate(model_inputs, max_new_tokens=1000, do_sample=True)
decoded = tokenizer.batch_decode(generated_ids)
print(decoded[0])

上例中通過apply_chat_template完全格式化的輸入對話如下：

<s><|im_start|> system
Odpowiadaj krótko, precyzyjnie i wyłącznie w języku polskim.<|im_end|> 
<|im_start|> user
Jakie mamy pory roku w Polsce?<|im_end|> 
<|im_start|> assistant
W Polsce mamy 4 pory roku: wiosna, lato, jesień i zima.<|im_end|> 
<|im_start|> user
Która jest najcieplejsza?<|im_end|>

🔧 技術細節

訓練數據

訓練數據來自SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫，訓練數據集包含超過1900萬條指令，由超過120億個標記組成。

微調技術

為使模型符合用戶偏好，測試了DPO、PPO、KTO、SiMPO等多種技術，最終採用DPO-Positive方法，利用生成和人工修正的示例，並由元模型評分。使用包含超過111,000個不同長度示例的數據集處理不同響應風格，經獎勵模型過濾和評估選擇合適指令。

訓練框架

使用ALLaMo開源框架訓練，該框架允許快速高效訓練與LLaMA和Mistral架構相似的語言模型。

🚫 侷限性和偏差

Bielik-1.5B-v3-Instruct只是一個快速演示，表明基礎模型可以很容易地進行微調以實現令人信服和有前景的性能。它沒有任何審核機制。我們期待與社區合作，使模型遵守規則，以便在需要審核輸出的環境中部署。

Bielik-1.5B-v3-Instruct可能會產生事實錯誤的輸出，因此不應依賴它來產生事實準確的數據。Bielik-1.5B-v3-Instruct是在各種公共數據集上訓練的。雖然已經盡力清理訓練數據，但該模型仍有可能生成淫穢、虛假、有偏見或其他冒犯性的輸出。

📄 許可證

本模型使用Apache 2.0許可證和使用條款。

📖 引用

請使用以下格式引用此模型：

@misc{ociepa2025bielikv3smalltechnical,
      title={Bielik v3 Small: Technical Report}, 
      author={Krzysztof Ociepa and Łukasz Flis and Remigiusz Kinas and Krzysztof Wróbel and Adrian Gwoździej},
      year={2025},
      eprint={2505.02550},
      archivePrefix={arXiv},
      primaryClass={cs.LG},
      url={https://arxiv.org/abs/2505.02550}, 
}

@misc{Bielik15Bv3i,
    title     = {Bielik-1.5B-v3-Instruct model card},
    author    = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof and {SpeakLeash Team} and {Cyfronet Team}},
    year      = {2025},
    url       = {https://huggingface.co/speakleash/Bielik-1.5B-v3-Instruct},
    note      = {Accessed: 2025-05-06}, % change this date
    urldate   = {2025-05-06} % change this date
}
@unpublished{Bielik15Bv33a,
  author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof},
  title  = {Bielik: A Family of Large Language Models for the Polish Language - Development, Insights, and Evaluation},
  year   = {2024},
}

👥 模型訓練負責人

Krzysztof Ociepa^SpeakLeash - 團隊領導、概念設計、數據準備、流程優化和訓練監督
Łukasz Flis^{Cyfronet AGH} - 協調和監督訓練
Remigiusz Kinas^SpeakLeash - 概念設計、協調強化學習訓練、數據準備、基準測試和量化
Adrian Gwoździej^SpeakLeash - 數據準備和確保數據質量
Krzysztof Wróbel^SpeakLeash - 基準測試

如果沒有整個SpeakLeash團隊的奉獻和努力，這個模型就不可能創建出來，他們的貢獻是無價的。由於許多人的辛勤工作，才有可能收集到大量的波蘭語內容，並在開放科學項目SpeakLeash和高性能計算中心ACK Cyfronet AGH之間建立了合作關係。為模型創建做出貢獻的人員包括： Sebastian Kondracki、 Igor Ciuciura、 Szymon Baczyński、 Jacek Chwiła、 Dominika Basaj、 Kuba Sołtys、 Karol Jezierski、 Anna Przybył、 Agnieszka Ratajska、 Witold Wydmański、 Izabela Babis、 Nina Babis。