B

Bielik 11B V2

由speakleash開發
Bielik-11B-v2 是一個擁有110億參數的生成式文本模型,專為波蘭語文本開發訓練,基於Mistral-7B-v0.2初始化,訓練了4000億個token。
下載量 690
發布時間 : 8/26/2024

模型概述

該模型是開源科學項目SpeakLeash與高性能計算中心ACK Cyfronet AGH合作的成果,展現出卓越的波蘭語理解處理能力,能精準響應並高效完成各類語言任務。

模型特點

大規模訓練
基於前代Mistral-7B-v0.2初始化,並訓練了4000億個token,訓練數據包含SpeakLeash項目收集的波蘭語文本及CommonCrawl子集。
高質量數據
通過XGBoost分類模型評估波蘭語文本質量,篩選質量指數為HIGH且概率超90%的文本,確保訓練數據的精煉優質。
高性能計算
訓練在ACK Cyfronet AGH的Helios超算上完成,使用256張NVidia GH200顯卡,依託波蘭PLGrid環境的大規模計算基礎設施。

模型能力

波蘭語文本生成
波蘭語理解處理
語言任務響應

使用案例

語言處理
文本生成
生成波蘭語文本,如文章、故事等。
能精準響應並高效完成各類語言任務。
情感分析
分析波蘭語文本的情感傾向。
在Open PL LLM Leaderboard中表現優異。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase