🚀 BigScience Large Open-science Open-access Multilingual Language Model
BigScienceによる大規模なオープンサイエンス、オープンアクセスの多言語言語モデルで、大量のテキストデータからコヒーレントなテキストを生成できます。
バージョン1.3 / 2022年7月6日
現在のチェックポイント: Training Iteration 95000
論文へのリンク: こちら
合計参照トークン数: 366B
🚀 クイックスタート
BLOOMは、産業規模の計算資源を用いて大量のテキストデータからプロンプトに続くテキストを生成するように訓練された自己回帰型の大規模言語モデル(LLM)です。これにより、46の自然言語と13のプログラミング言語で人間が書いたようなコヒーレントなテキストを出力することができます。また、明示的に訓練されていないテキストタスクも、テキスト生成タスクとして実行するよう指示することができます。
✨ 主な機能
- 46の自然言語と13のプログラミング言語でのテキスト生成が可能
- 明示的に訓練されていないテキストタスクも実行可能
📚 ドキュメント
基本情報
このセクションでは、モデルのタイプ、バージョン、ライセンス、資金提供元、リリース日、開発者、および連絡先に関する情報を提供します。モデルを参照する必要がある人に役立ちます。
クリックして展開
開発者: BigScience (ウェブサイト)
すべての協力者はボランティアか、雇用主との契約を持っています。(参加者の詳細は後日公開予定)
モデルタイプ: Transformerベースの言語モデル
チェックポイント形式: transformers
(Megatron-DeepSpeed形式はこちらで入手可能)
バージョン: 1.0.0
言語: 複数; 訓練データを参照
ライセンス: RAIL License v1.0 (リンク / 記事とFAQ)
リリース日予定: 2022年7月11日(月曜日)
質問先: bigscience-contact@googlegroups.com
引用形式: BigScience, BigScience Language Open-science Open-access Multilingual (BLOOM) Language Model. International, May 2021-May 2022
資金提供元:
- フランス政府
- Hugging Face (ウェブサイト)
- 協力者の組織 (組織の詳細は後日公開予定)
技術仕様
このセクションには、モデルの目的とアーキテクチャ、および計算インフラストラクチャに関する詳細が含まれています。モデル開発に興味がある人に役立ちます。
クリックして展開
訓練の再現に関する詳細は、BLOOM訓練READMEを参照してください。
モデルアーキテクチャと目的
- Megatron-LM GPT2から変更されたもの(論文、BLOOM Megatronコードを参照)
- デコーダーのみのアーキテクチャ
- 単語埋め込み層に適用されるレイヤー正規化 (
StableEmbedding
; コード、論文を参照)
- ALiBI位置エンコーディング(論文を参照)、GeLU活性化関数
- 176,247,271,424パラメータ:
目的関数: 平均削減による交差エントロピー(APIドキュメントを参照)
計算インフラストラクチャ
フランス政府によって提供されるJean Zay公共スーパーコンピュータ(発表を参照)。
ハードウェア
- 384台のA100 80GB GPU(48ノード)
- 予備として追加の32台のA100 80GB GPU(4ノード)
- ノードあたり8台のGPU、NVLink 4インターGPU接続、4本のOmniPathリンク
- CPU: AMD
- CPUメモリ: ノードあたり512GB
- GPUメモリ: ノードあたり640GB
- ノード間接続: Omni-Path Architecture (OPA)
- NCCL通信ネットワーク: 完全に専用のサブネット
- ディスクIOネットワーク: 他のタイプのノードと共有のネットワーク
ソフトウェア
🔧 技術詳細
訓練
このセクションでは、訓練データ、訓練要素の速度とサイズ、および訓練の環境への影響に関する情報を提供します。モデルの入力と訓練の影響について詳しく知りたい人に役立ちます。
クリックして展開
訓練データ
このセクションでは、訓練データの概要を提供します。モデルが学習している内容の基本を知りたい人に関連します。
各データセットの詳細は、個々のデータカードで提供され、集約された訓練データへの各貢献のサイズは、インタラクティブコーパスマップで提示されています。
訓練データには以下が含まれます:
- 46の自然言語
- 13のプログラミング言語
- 1.6TBの前処理済みテキストが、350Bの一意のトークンに変換されたもの(詳細はトークナイザーセクションを参照)
言語
円グラフは、訓練データにおける言語の分布を示しています。

以下の表は、訓練データにおけるニジェール・コンゴ語族とインド語族の言語、およびプログラミング言語のさらなる分布を示しています。
ニジェール・コンゴ語族とインド語族の言語の分布。
ニジェール・コンゴ語族 |
割合 |
|
インド語族 |
割合 |
チ・タンブカ語 |
0.00002 |
|
アッサム語 |
0.01 |
キクユ語 |
0.00004 |
|
オディア語 |
0.04 |
バンバラ語 |
0.00004 |
|
グジャラート語 |
0.04 |
アカン語 |
0.00007 |
|
マラーティー語 |
0.05 |
シトンガ語 |
0.00007 |
|
パンジャーブ語 |
0.05 |
セソト語 |
0.00007 |
|
カンナダ語 |
0.06 |
チ・チェワ語 |
0.0001 |
|
ネパール語 |
0.07 |
セツワナ語 |
0.0002 |
|
テルグ語 |
0.09 |
リンガラ語 |
0.0002 |
|
マラヤーラム語 |
0.10 |
北ソト語 |
0.0002 |
|
ウルドゥー語 |
0.10 |
フォン語 |
0.0002 |
|
タミル語 |
0.20 |
キルンディ語 |
0.0003 |
|
ベンガル語 |
0.50 |
ウォロフ語 |
0.0004 |
|
ヒンディー語 |
0.70 |
ルガンダ語 |
0.0004 |
|
|
|
チ・ショナ語 |
0.001 |
|
|
|
ズールー語 |
0.001 |
|
|
|
イボ語 |
0.001 |
|
|
|
コサ語 |
0.001 |
|
|
|
キニヤルワンダ語 |
0.003 |
|
|
|
ヨルバ語 |
0.006 |
|
|
|
スワヒリ語 |
0.02 |
|
|
|
プログラミング言語の分布。
拡張子 |
言語 |
ファイル数 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
py |
Python |
2,435,072 |
js |
JavaScript |
1,905,518 |
cs |
C# |
1,577,347 |
rb |
Ruby |
678,413 |
cc |
C++ |
443,054 |
hpp |
C++ |
391,048 |
lua |
Lua |
352,317 |
go |
GO |
227,763 |
ts |
TypeScript |
195,254 |
C |
C |
134,537 |
scala |
Scala |
92,052 |
hh |
C++ |
67,161 |
H |
C++ |
55,899 |
tsx |
TypeScript |
33,107 |
rs |
Rust |
29,693 |
📄 ライセンス
このモデルは、RAIL License v1.0の下でライセンスされています。詳細はこちらと記事とFAQを参照してください。