🚀 BLOOM LM
BigScienceによる大規模なオープンサイエンス、オープンアクセスの多言語言語モデル

Version 1.0 / 26.May.2022
📚 ドキュメント
- モデルの詳細
- 用途
- 学習データ
- リスクと制限
- 評価
- 推奨事項
- 用語集と計算方法
- 詳細情報
- モデルカード作成者
🔧 技術詳細
基本情報
このセクションは、モデルに関する情報を提供します。
クリックして展開
開発者: BigScience (ウェブサイト)
- すべての協力者はボランティアか、雇用主との合意を持っています。(参加者の詳細は後日公開予定です。)
モデルの種類: Transformerベースの言語モデル
バージョン: 1.0.0
言語: 複数; 学習データを参照
ライセンス: RAIL License v1.0 (リンク)
リリース予定日: Monday, 11.July.2022
質問先: bigscience-contact@googlegroups.com
引用方法: BigScience, BigScience Language Open-science Open-access Multilingual (BLOOM) Language Model. International, May 2021-May 2022
資金提供元:
-
フランス政府。
-
Hugging Face (ウェブサイト)。
-
貢献者の組織。(組織の詳細は後日公開予定です。)
技術仕様
このセクションは、モデル開発に携わる人々に情報を提供します。
クリックして展開
学習の再現に関する詳細は、the BLOOM training READMEを参照してください。
モデルアーキテクチャ: Megatron-LM GPT2から変更されています (論文paper、BLOOM Megatronコードを参照):
目的関数: 平均削減による交差エントロピー ( APIドキュメントを参照)
計算インフラストラクチャ: フランス政府によって提供されるJean Zay Public Supercomputer (発表announcementを参照)
学習
学習ログ: Tensorboardリンク
トークン化
BLOOMトークナイザー (リンク) は、以下を使用して学習された学習済みのサブワードトークナイザーです:
これは、コーパスの予備版のサブセットで、言語ごとのアルファ重み付けを使用して学習されました。
環境への影響
クリックして展開
学習用のスーパーコンピュータであるJean Zay (ウェブサイト) は、主に原子力エネルギーを使用しています。それによって発生する熱は、キャンパスの住宅の暖房に再利用されます。
推定炭素排出量: (学習完了後に公開予定です。)
推定電力使用量: (学習完了後に公開予定です。)
✨ 主な機能
意図された用途
このモデルは、大規模言語モデル (LLM) に関する公的な研究を可能にするために作成されています。LLMは、言語生成に使用されるか、特定のタスクに対してさらに微調整できる事前学習ベースモデルとして使用されることを意図しています。以下のユースケースは網羅的ではありません。
直接的な使用
-
テキスト生成
-
言語モデルによって生成される言語の特性を探索する
下流の使用
- 言語モデルを活用するタスクには、情報抽出、質問応答、要約が含まれます。
誤用と想定外の使用
このセクションでは、ユーザーがモデルを使ってはいけないことについて説明します。
詳細な使用制限については、BLOOMライセンス、付属書Aを参照してください。以下のリストは網羅的ではなく、予想される問題のあるユースケースの一部を列挙しています。
想定外の使用
このモデルは、高リスクな設定での使用は想定外です。このモデルは、重要な決定や、個人の生活や幸福に重大な影響を与える使用には設計されていません。モデルの出力は事実のように見えるが正しくない内容を含んでいます。
想定外の使用には以下が含まれます:
-
生物医学分野、政治および法律分野、または金融分野での使用
-
雇用、教育、または信用など、個人の評価やスコアリングのための使用
-
重要な自動決定、事実的な内容の生成、信頼できる要約の作成、または正しくなければならない予測の生成のためのモデルの適用
誤用
意図的にモデルを害のために使用したり、人権を侵害したり、その他の悪意のある活動を行うことは、このモデルの誤用です。これには以下が含まれます:
意図されたユーザー
直接的なユーザー
-
一般公衆
-
研究者
-
学生
-
教育者
-
エンジニア/開発者
-
非営利団体
-
人権や市民権グループを含むコミュニティの提唱者
間接的なユーザー
その他の影響を受ける者 (利害関係者)
📦 インストール
このセクションには、モデルの学習データに関する概要が提供されています。これは、モデルが学習している基本的な内容を知りたい人に関連しています。
クリックして展開
各データセットの詳細は、個別の データカード で提供されています。
学習データには以下が含まれます:
言語
円グラフは、学習データにおける言語の分布を示しています。

以下の表は、学習データにおけるニジェール・コンゴ語族とインド語族の言語のさらなる分布を示しています。
クリックして展開
ニジェール・コンゴ語族 |
割合 |
|
インド語族 |
割合 |
チ・タンブカ語 |
0.00002 |
|
アッサム語 |
0.01 |
キクユ語 |
0.00004 |
|
オディア語 |
0.04 |
バンバラ語 |
0.00004 |
|
グジャラート語 |
0.04 |
アカン語 |
0.00007 |
|
マラーティー語 |
0.05 |
シツォンガ語 |
0.00007 |
|
パンジャーブ語 |
0.05 |
セソト語 |
0.00007 |
|
カンナダ語 |
0.06 |
チ・チェワ語 |
0.0001 |
|
ネパール語 |
0.07 |
セツワナ語 |
0.0002 |
|
テルグ語 |
0.09 |
北ソト語 |
0.0002 |
|
マラヤーラム語 |
0.10 |
フォン語 |
0.0002 |
|
ウルドゥ語 |
0.10 |
キルンディ語 |
0.0003 |
|
タミル語 |
0.20 |
ウォロフ語 |
0.0004 |
|
ベンガル語 |
0.50 |
グンダ語 |
0.0004 |
|
ヒンディー語 |
0.70 |
チ・ショナ語 |
0.001 |
|
|
|
ズールー語 |
0.001 |
|
|
|
イボ語 |
0.001 |
|
|
|
コサ語 |
0.001 |
|
|
|
キニヤルワンダ語 |
0.003 |
|
|
|
ヨルバ語 |
0.006 |
|
|
|
スワヒリ語 |
0.02 |
|
|
|
以下の表は、プログラミング言語の分布を示しています。
クリックして展開
拡張子 |
言語 |
ファイル数 |
java |
Java |
5,407,724 |
php |
PHP |
4,942,186 |
cpp |
C++ |
2,503,930 |
py |
Python |
2,435,072 |
js |
JavaScript |
1,905,518 |
cs |
C# |
1,577,347 |
rb |
Ruby |
6,78,413 |
cc |
C++ |
443,054 |
hpp |
C++ |
391,048 |
lua |
Lua |
352,317 |
go |
GO |
227,763 |
ts |
TypeScript |
195,254 |
C |
C |
134,537 |
scala |
Scala |
92,052 |
hh |
C++ |
67,161 |
H |
C++ |
55,899 |
tsx |
TypeScript |
33,107 |
rs |
Rust |
29,693 |
phpt |
PHP |
9,702 |
c++ |
C++ |
1,342 |
h++ |
C++ |
791 |
php3 |
PHP |
540 |
phps |
PHP |
270 |
php5 |
PHP |
166 |
php4 |
PHP |
29 |
📄 ライセンス
このモデルのライセンスは、bigscience-bloom-rail-1.0です。