🚀 BLOOM LM
BigScienceによる大規模なオープンサイエンス、オープンアクセスの多言語言語モデルで、多様な言語のテキスト生成に対応しています。
🚀 クイックスタート
このセクションでは、BLOOM LMモデルに関する概要を提供します。
モデルの基本情報
属性 |
详情 |
開発元 |
BigScience (ウェブサイト) |
モデルタイプ |
Transformerベースの言語モデル |
バージョン |
1.0.0 |
対応言語 |
複数言語; 学習データを参照 |
ライセンス |
RAIL License v1.0 (リンク) |
リリース予定日 |
2022年7月11日(月) |
問い合わせ先 |
bigscience-contact@googlegroups.com |
引用形式 |
BigScience, BigScience Language Open-science Open-access Multilingual (BLOOM) Language Model. International, May 2021 - May 2022 |
資金提供元 |
フランス政府、Hugging Face (ウェブサイト)、貢献者の所属組織 |
技術仕様
詳細な学習再現については、the BLOOM training READMEを参照してください。
モデルアーキテクチャ
Megatron-LM GPT2を改変したものです(論文、BLOOM Megatronコードを参照):
- デコーダーのみのアーキテクチャ
- 単語埋め込み層にレイヤー正規化を適用(
StableEmbedding
; コード、論文を参照)
- ALiBI位置符号化(論文を参照)、GeLU活性化関数を使用
- 3億5000万のパラメータ:
目的関数
平均削減による交差エントロピー(APIドキュメントを参照)。
コンピューティングインフラストラクチャ
フランス政府が提供するJean Zay公共スーパーコンピュータ(発表を参照)。
- ハードウェア:
- 384台のA100 80GB GPU(48ノード)
- 予備として32台のA100 80GB GPU(4ノード)
- ノードあたり8台のGPU、NVLink 4 GPU間接続、4つのOmniPathリンク
- CPU:AMD
- CPUメモリ:ノードあたり512GB
- GPUメモリ:ノードあたり640GB
- ノード間接続:Omni-Path Architecture (OPA)
- NCCL通信ネットワーク:完全に専用のサブネット
- ディスクIOネットワーク:他のタイプのノードと共有のネットワーク
- ソフトウェア:
学習
現在学習中です。現在の学習ログはTensorboardリンクから確認できます。
- チェックポイントサイズ:
- Bf16重み:329GB
- オプティマイザー状態を含む完全なチェックポイント:2.3TB
- 学習スループット:GPUあたり約150 TFLOP/秒
- エポック数:1(現在の目標)
- 期間:
- 開始日:2022年3月11日 太平洋標準時11:42
- 終了予定日:2022年7月5日
- 学習の推定コスト:クラウドコンピューティングで200万 - 500万ドル相当(予備実験を含む)
- サーバー学習場所:フランスのÎle-de-France
トークン化
BLOOMトークナイザー(リンク)は、以下の方法で学習されたサブワードトークナイザーです:
- バイトレベルのByte Pair Encoding (BPE)アルゴリズム
- 単純な事前トークン化ルール、正規化なし
- 語彙サイズは250,680
言語ごとのアルファ重み付けを使用して、コーパスの予備バージョンのサブセットで学習されました。
環境への影響
学習用のスーパーコンピュータであるJean Zay(ウェブサイト)は、主に原子力エネルギーを使用しています。それによって発生する熱は、キャンパスの住宅の暖房に再利用されています。
- 推定炭素排出量:(学習完了後に提供予定)
- 推定電力使用量:(学習完了後に提供予定)
✨ 主な機能
想定される用途
このモデルは、大規模言語モデル(LLM)に関する公的な研究を可能にするために作成されています。LLMは、テキスト生成や特定のタスクに合わせてさらに微調整できる事前学習ベースモデルとして使用されることを想定しています。以下のユースケースは網羅的ではありません。
直接的な使用
- テキスト生成
- 言語モデルによって生成される言語の特性を探索
下流の使用
- 言語モデルを活用するタスクには、情報抽出、質問応答、要約などが含まれます。
誤用と想定外の使用
このセクションでは、ユーザーがモデルを使用してはいけないことについて説明します。詳細な使用制限については、BLOOM License、付属書Aを参照してください。以下のリストは網羅的ではなく、予想される問題のあるユースケースの一部を列挙しています。
想定外の使用
このモデルは、高リスクな設定での使用は想定外です。このモデルは、重要な決定や個人の生活や幸福に重大な影響を与える使用には設計されていません。モデルは事実のように見えるが正しくない内容を出力することがあります。
- 想定外の使用には以下が含まれます:
- 生物医学分野、政治および法律分野、または金融分野での使用
- 雇用、教育、または信用などの個人の評価やスコアリングのための使用
- 重要な自動決定、事実内容の生成、信頼できる要約の作成、または正しくなければならない予測の生成のためのモデルの適用
誤用
モデルを意図的に害のために使用したり、人権を侵害したり、その他の悪意のある活動に使用することは、このモデルの誤用です。これには以下が含まれます:
想定されるユーザー
直接的なユーザー
- 一般公衆
- 研究者
- 学生
- 教育者
- エンジニア/開発者
- 非営利団体
- 人権および市民権グループを含むコミュニティ擁護者
間接的なユーザー
その他の影響を受ける者(利害関係者)
- LLMによって参照される人やグループ
- LLMの出力やそれに基づく決定にさらされる人やグループ
- LLMに元の作品が含まれる人やグループ
📦 学習データ
各データセットの詳細は、個別のData Cardsで提供されています。
学習データには以下が含まれます:
- 45の自然言語
- 12のプログラミング言語
- 前処理された1.5TBのテキストが、3500億の一意のトークンに変換されています(トークナイザーのセクションを参照)
言語
円グラフは学習データにおける言語の分布を示しています。

以下の表は、学習データにおけるニジェール・コンゴ語族とインド語族の言語のさらなる分布を示しています。
クリックして展開
ニジェール・コンゴ語族 |
割合 |
|
インド語族 |
割合 |
チ・タンブカ語 |
0.00002 |
|
アッサム語 |
0.01 |
キクユ語 |
0.00004 |
|
オディア語 |
0.04 |
バンバラ語 |
0.00004 |
|
グジャラート語 |
0.04 |
アカン語 |
0.00007 |
|
マラーティー語 |
0.05 |
シツォンガ語 |
0.00007 |
|
パンジャーブ語 |
0.05 |
セソト語 |
0.00007 |
|
カンナダ語 |
0.06 |
チ・チェワ語 |
0.0001 |
|
ネパール語 |
0.07 |
セツワナ語 |
0.0002 |
|
テルグ語 |
0.09 |
北ソト語 |
0.0002 |
|
マラヤーラム語 |
0.10 |
フォン語 |
0.0002 |
|
ウルドゥー語 |
0.10 |
キルンディ語 |
0.0003 |
|
タミル語 |
0.20 |
ウォロフ語 |
0.0004 |
|
ベンガル語 |
0.50 |
グアンダ語 |
0.0004 |
|
ヒンディー語 |
0.70 |
チ・ショナ語 |
0.001 |
|
|
|
ズールー語 |
0.001 |
|
|
|
イボ語 |
0.001 |
|
|
|
コサ語 |
0.001 |
|
|
|
キニャルワンダ語 |
0.003 |
|
|
|
ヨルバ語 |
0.006 |
|
|
|
スワヒリ語 |
0.02 |
|
|
|
以下の表は、プログラミング言語の分布を示しています。
クリックして展開
拡張子 |
言語 |
ファイル数 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
py |
Python |
2,435,072 |
js |
JavaScript |
1,905,518 |
cs |
C# |
1,577,347 |
rb |
Ruby |
678,413 |
cc |
C++ |
443,054 |
hpp |
C++ |
391,048 |
lua |
Lua |
352,317 |
go |
GO |
227,763 |
ts |
TypeScript |
195,254 |
C |
C |
134,537 |
scala |
Scala |
92,052 |
hh |
C++ |
67,161 |
H |
C++ |
55,899 |
tsx |
TypeScript |
33,107 |
rs |
Rust |
29,693 |
phpt |
PHP |
9,702 |
c++ |
C++ |
1,342 |
h++ |
C++ |
791 |
php3 |
PHP |
540 |
phps |
PHP |
270 |
php5 |
PHP |
166 |
php4 |
PHP |
29 |
🔧 リスクと制限
このセクションでは、予見可能な害や誤解を特定しています。
モデルは以下の可能性があります:
- 一部の見解を過剰に表現し、他の見解を過小に表現する
- ステレオタイプを含む
- 個人情報を含む
- 以下を生成する:
- 憎悪的、虐待的、または暴力的な言語
- 差別的または偏見的な言語
- すべての設定に適さない内容、性的な内容を含む
- 誤りを犯す、事実のように見えるが正しくない情報を生成する
- 関連性のないまたは繰り返しの出力を生成する
📚 評価
このセクションでは、評価プロトコルを説明し、結果を提供しています。
指標
このセクションでは、パフォーマンスが計算されるさまざまな方法とその理由を説明しています。
指標 |
選択理由 |
パープレキシティ |
学習中のモデルの改善を定量化するための標準的な指標 |
交差エントロピー 損失 |
言語モデルの標準的な目的関数 |
特定のタスクには複数の異なる指標があります。(評価プロトコルの完了後に、より多くの評価指標が提供されます。)
要因
このセクションでは、BLOOMモデルのいくつかの異なる側面を列挙しています。その焦点は、モデルの振る舞いに大きなばらつきをもたらす可能性のある側面にあります。
- 言語、例えば英語やヨルバ語
- ドメイン、例えばニュースや物語
- 人口統計学的特性、例えば性別や国籍
結果
結果は[F(原文ではここで切れています)に基づいています。
📄 ライセンス
このモデルは、bigscience-bloom-rail-1.0ライセンスの下で提供されています。詳細については、BLOOM Licenseを参照してください。