B

Bielik 11B V2

speakleashによって開発
Bielik-11B-v2は110億パラメータを持つ生成型テキストモデルで、ポーランド語テキスト向けに開発・訓練され、Mistral-7B-v0.2を初期化し、4000億トークンを訓練しました。
ダウンロード数 690
リリース時間 : 8/26/2024

モデル概要

このモデルはオープンサイエンスプロジェクトSpeakLeashと高性能計算センターACK Cyfronet AGHの協力の成果であり、優れたポーランド語理解処理能力を示し、様々な言語タスクに正確に対応し効率的に完了できます。

モデル特徴

大規模訓練
前世代のMistral-7B-v0.2を初期化し、4000億トークンを訓練し、訓練データにはSpeakLeashプロジェクトが収集したポーランド語テキストとCommonCrawlサブセットが含まれています。
高品質データ
XGBoost分類モデルでポーランド語テキストの品質を評価し、品質指数がHIGHで確率が90%を超えるテキストを選別し、訓練データの精錬された品質を確保しました。
高性能計算
訓練はACK Cyfronet AGHのHeliosスーパーコンピュータで完了し、256枚のNVidia GH200グラフィックカードを使用し、ポーランドPLGrid環境の大規模計算インフラストラクチャに依拠しました。

モデル能力

ポーランド語テキスト生成
ポーランド語理解処理
言語タスク対応

使用事例

言語処理
テキスト生成
ポーランド語テキストを生成します。例えば、記事や物語など。
様々な言語タスクに正確に対応し効率的に完了できます。
感情分析
ポーランド語テキストの感情傾向を分析します。
Open PL LLM Leaderboardで優れた成績を示しました。
AIbase
未来を切り開く、あなたのAIソリューション知識ベース
© 2025AIbase