Bielik-11B-v2開源文本生成模型 - 專為波蘭語量身打造，免費使用！

首頁

Bielik 11B V2

由speakleash開發

Bielik-11B-v2 是一個擁有110億參數的生成式文本模型，專為波蘭語文本開發訓練，基於Mistral-7B-v0.2初始化，訓練了4000億個token。

大型語言模型

Transformers

其他開源協議:Apache-2.0 #波蘭語生成 #超算訓練 #大參數基座

下載量 690

發布時間 : 8/26/2024

模型概述

該模型是開源科學項目SpeakLeash與高性能計算中心ACK Cyfronet AGH合作的成果，展現出卓越的波蘭語理解處理能力，能精準響應並高效完成各類語言任務。

模型特點

大規模訓練

基於前代Mistral-7B-v0.2初始化，並訓練了4000億個token，訓練數據包含SpeakLeash項目收集的波蘭語文本及CommonCrawl子集。

高質量數據

通過XGBoost分類模型評估波蘭語文本質量，篩選質量指數為HIGH且概率超90%的文本，確保訓練數據的精煉優質。

高性能計算

訓練在ACK Cyfronet AGH的Helios超算上完成，使用256張NVidia GH200顯卡，依託波蘭PLGrid環境的大規模計算基礎設施。

模型能力

波蘭語文本生成

波蘭語理解處理

語言任務響應

使用案例

語言處理

文本生成

生成波蘭語文本，如文章、故事等。

能精準響應並高效完成各類語言任務。

情感分析

分析波蘭語文本的情感傾向。

在Open PL LLM Leaderboard中表現優異。

🚀 Bielik-11B-v2

Bielik-11B-v2是一個擁有110億參數的生成式文本模型。它基於其前身Mistral-7B-v0.2進行初始化，並在4000億個標記上進行訓練。該模型是開放科學/開源項目SpeakLeash與高性能計算（HPC）中心ACK Cyfronet AGH獨特合作的成果。它使用由SpeakLeash團隊精心挑選和處理的波蘭語文本語料庫進行開發和訓練，藉助了波蘭的大規模計算基礎設施，特別是在PLGrid環境中，更確切地說是在ACK Cyfronet AGH高性能計算中心。Bielik-11B-v2的創建和訓練得到了計算資助編號PLG/2024/016951的支持，在Athena和Helios超級計算機上進行，這使得模型能夠利用大規模機器學習過程所需的前沿技術和計算資源。因此，該模型展現出了卓越的理解和處理波蘭語的能力，能夠提供準確的響應，並高精度地執行各種語言任務。

🚀 快速開始

基礎用法

from transformers import AutoTokenizer, AutoModelForCausalLM

model_name = "speakleash/Bielik-11B-v2"

tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name)

高級用法

為了減少內存使用，可以使用較小的精度（bfloat16）。

import torch

model = AutoModelForCausalLM.from_pretrained(model_name, torch_dtype=torch.bfloat16)

然後可以使用HuggingFace Pipelines來生成文本：

import transformers

text = "Najważniejszym celem człowieka na ziemi jest"

pipeline = transformers.pipeline("text-generation", model=model, tokenizer=tokenizer)
sequences = pipeline(max_new_tokens=100, do_sample=True, top_k=50, eos_token_id=tokenizer.eos_token_id, text_inputs=text)
for seq in sequences:
    print(f"Result: {seq['generated_text']}")

生成的輸出：

Najważniejszym celem człowieka na ziemi jest życie w pokoju, harmonii i miłości. Dla każdego z nas bardzo ważne jest, aby otaczać się kochanymi osobami.

✨ 主要特性

強大的波蘭語處理能力：基於波蘭語文本語料庫進行訓練，能夠準確理解和處理波蘭語，提供高精度的語言任務執行能力。
高性能計算支持：藉助ACK Cyfronet AGH的超級計算機和計算資助，利用前沿技術和資源進行訓練。
可擴展性：作為基礎模型，適合進行進一步的微調，以滿足不同的應用場景需求。

📦 安裝指南

本模型可以通過transformers庫輕鬆加載，無需額外複雜的安裝步驟。只需確保已經安裝了transformers庫，然後按照上述快速開始部分的代碼示例進行操作即可。

📚 詳細文檔

模型描述

屬性	詳情
開發團隊	SpeakLeash & ACK Cyfronet AGH
語言	波蘭語
模型類型	因果解碼器模型
初始化模型	Mistral-7B-v0.2
許可證	Apache 2.0 和使用條款
模型引用	speakleash:45b6efdb701991181a05968fc53d2a8e

質量評估

為了評估波蘭語原生文本的質量，準備並創建了一個XGBoost分類模型。該模型基於93個特徵，如詞彙外單詞與所有單詞的比例（OOVs）、名詞和動詞的數量、平均句子長度等。模型會輸出給定文檔的類別（高、中或低）以及相應的概率。這種方法允許實現一個專門的管道來選擇文本，我們使用了質量指數高且概率超過90%的條目。通過這種過濾和適當的文本選擇，為訓練提供了一個精簡且高質量的波蘭語文本數據庫。

評估結果

Open PL LLM Leaderboard

該基準測試評估模型在情感分析、分類、文本分類等NLP任務中的表現，但不測試聊天技能。平均列是所有任務的平均得分，通過基線得分進行歸一化。

模型	參數（B）	平均得分
Meta-Llama-3-70B	70	62.07
Qwen1.5-72B	72	61.11
Meta-Llama-3.1-70B	70	60.87
Mixtral-8x22B-v0.1	141	60.75
Qwen1.5-32B	32	58.71
Bielik-11B-v2	11	58.14
Qwen2-7B	7	49.39
SOLAR-10.7B-v1.0	10.7	47.54
Mistral-Nemo-Base-2407	12	47.28
internlm2-20b	20	47.15
Meta-Llama-3.1-8B	8	43.77
Meta-Llama-3-8B	8	43.30
Mistral-7B-v0.2	7	38.81
Bielik-7B-v0.1	7	34.34
Qra-13b	13	33.90
Qra-7b	7	16.60

Open PL LLM Leaderboard的結果顯示，擁有110億參數的Bielik-11B-v2模型平均得分達到58.14。這使其成為參數少於200億的模型中表現最好的模型，比該類別中第二好的模型高出8.75個百分點。這一顯著優勢不僅使其超越了其前身Bielik-7B-v0.1（得分34.34），還證明了它優於其他更大的模型。這一巨大的改進凸顯了該新版本所取得的顯著進步和優化。

Open LLM Leaderboard

Open LLM Leaderboard評估模型在各種英語語言任務中的表現，為模型在不同語言挑戰中的性能提供了見解。

模型	平均得分	arc_challenge	hellaswag	truthfulqa_mc2	mmlu	winogrande	gsm8k
Bielik-11B-v2	65.87	60.58	79.84	46.13	63.06	77.82	67.78
Mistral-7B-v0.2	60.37	60.84	83.08	41.76	63.62	78.22	34.72
Bielik-7B-v0.1	49.98	45.22	67.92	47.16	43.20	66.85	29.49

Open LLM Leaderboard的結果表明，Bielik-11B-v2在各種NLP任務中表現出色。平均得分65.87，顯著優於其前身Bielik-7B-v0.1，甚至超過了作為其初始權重基礎的Mistral-7B-v0.2。

主要觀察結果：

與Bielik-7B-v0.1相比，Bielik-11B-v2在大多數類別中都有顯著改進，凸顯了模型增強的有效性。
它在hellaswag（常識推理）、winogrande（常識推理）和gsm8k（數學問題解決）等任務中表現出色，表明它在不同類型的語言理解和生成任務中具有多功能性。
雖然Mistral-7B-v0.2在truthfulqa_mc2任務中表現更好，但Bielik-11B-v2在這個辨別事實的任務中仍保持了有競爭力的表現。

儘管Bielik-11B-v2主要在波蘭語數據上進行訓練，但它保留並甚至提高了其理解和處理英語的能力，這從其在這些英語語言基準測試中的強勁表現可以看出。這表明該模型有效地利用了跨語言遷移學習，在保持波蘭語專業能力的同時增強了其英語語言能力。

🔧 技術細節

Bielik-11B-v2使用Megatron-LM進行訓練，並採用了不同的並行化技術。模型訓練在ACK Cyfronet AGH的Helios超級計算機上進行，使用了256張NVidia GH200顯卡。訓練數據集由通過SpeakLeash項目收集和提供的波蘭語文本以及CommonCrawl數據的一個子集組成。我們使用了2000億個標記（超過700GB的純文本）進行了兩個輪次的訓練。

📄 許可證

本模型使用Apache 2.0許可證和使用條款。

⚠️ 重要提示

這是一個基礎模型，適用於大多數用例的進一步微調。如果您正在尋找一個可以直接用於聊天或遵循指令的模型，請使用Bielik-11B-v.2.2-Instruct。

⚠️ 重要提示

Bielik-11B-v2不適合在未進行微調的情況下直接部署。在沒有進一步的防護措施和用戶同意的情況下，不應將其用於與人類的交互。該模型可能會產生事實錯誤的輸出，不應依賴它來生成事實準確的數據。Bielik-11B-v2在各種公共數據集上進行訓練，儘管已經盡力清理訓練數據，但該模型仍有可能生成淫穢、虛假、有偏見或其他冒犯性的輸出。

引用

請使用以下格式引用此模型：

@misc{Bielik11Bv2b,
    title     = {Bielik-11B-v2 model card},
    author    = {Ociepa, Krzysztof and Flis, Łukasz and Wróbel, Krzysztof and Gwoździej, Adrian and {SpeakLeash Team} and {Cyfronet Team}},
    year      = {2024},
    url       = {https://huggingface.co/speakleash/Bielik-11B-v2},
    note      = {Accessed: 2024-08-28},
    urldate   = {2024-08-28}
}
@unpublished{Bielik11Bv2a,
  author = {Ociepa, Krzysztof and Flis, Łukasz and Kinas, Remigiusz and Gwoździej, Adrian and Wróbel, Krzysztof},
  title  = {Bielik: A Family of Large Language Models for the Polish Language - Development, Insights, and Evaluation},
  year   = {2024},
}
@misc{ociepa2024bielik7bv01polish,
      title={Bielik 7B v0.1: A Polish Language Model -- Development, Insights, and Evaluation}, 
      author={Krzysztof Ociepa and Łukasz Flis and Krzysztof Wróbel and Adrian Gwoździej and Remigiusz Kinas},
      year={2024},
      eprint={2410.18565},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      url={https://arxiv.org/abs/2410.18565}, 
}

模型訓練負責人

Krzysztof Ociepa^SpeakLeash - 團隊領導、概念設計、數據準備、流程優化和訓練監督
Łukasz Flis^{Cyfronet AGH} - 協調和監督訓練
Adrian Gwoździej^SpeakLeash - 數據清理和質量控制
Krzysztof Wróbel^SpeakLeash - 基準測試

如果沒有整個SpeakLeash團隊的奉獻和努力，這個模型是無法創建的，他們的貢獻是無價的。由於許多人的辛勤工作，才有可能收集到大量的波蘭語內容，並在開放科學SpeakLeash項目和HPC中心ACK Cyfronet AGH之間建立了合作關係。為模型創建做出貢獻的個人包括： Grzegorz Urbanowicz、 Igor Ciuciura、 Jacek Chwiła、 Szymon Baczyński、 Paweł Kiszczak、 Aleksander Smywiński-Pohl。

ACK Cyfronet AGH團隊提供了寶貴支持和專業知識的成員包括： Szymon Mazurek、 Marek Magryś。