🚀 BioMedLM 2.7B モデルカード
BioMedLM 2.7Bは、生物医学分野の論文や要約をもとに訓練された言語モデルです。このGPTスタイルのモデルは、様々な生物医学NLPタスクで高い性能を発揮し、MedQAの生物医学質問応答タスクで50.3%の正解率という新たな記録を達成しました。また、自然言語生成も可能ですが、現時点では研究目的のみを想定しています。
🚀 クイックスタート
このモデルは、BigScience Open RAIL - Mライセンスの下でライセンスされています。このライセンスでは、「医療アドバイスや医療結果の解釈を提供する」ことが禁止されています。使用例がこの制限の「文字通りの意味」に該当するが「精神的な意味」には該当しないと考える場合は、ご相談いただけます。
✨ 主な機能
- 生物医学分野の様々なNLPタスクで高い性能を発揮します。
- MedQAの生物医学質問応答タスクで50.3%の正解率を達成しました。
- 自然言語生成が可能ですが、研究目的のみを想定しています。
📦 インストール
原文書にインストール手順は記載されていません。
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
言語モデル |
訓練データ |
このモデルは、The Pile のPubMedの要約と全文を使って訓練されました。 |
用途
直接使用
このモデルを使ってテキスト生成を行うことができ、実験やモデルの能力の理解に役立ちます。ただし、直接的に生産環境や人に直接影響を与える作業には使用しないでください。
下流タスクでの使用
このモデルを下流の質問応答タスクにファインチューニングすることを主な使用方法としており、このように使用することを推奨します。
想定外の使用
生産環境での自然言語生成には、ファインチューニング有無に関わらず、このモデルの使用は推奨しません。
バイアス、リスク、制限事項
言語モデルのバイアスや公平性の問題に関する多くの研究が行われています(例えば、Sheng et al. (2021) を参照)。このモデルが生成する予測結果には、保護されたクラス、アイデンティティの特性、および敏感な社会的・職業的グループに関する有害なステレオタイプが含まれる可能性があります。
⚠️ 重要提示
このモデルは自然言語生成が可能ですが、その能力と制限についてはまだ調査の途中です。医学のような分野では、これらの制限を理解することが特に重要です。したがって、自然言語生成のための生産環境でのこのモデルの使用は強く推奨しません。
訓練の詳細
訓練データ
このモデルは、The Pile のPubMedの要約と全文を使って訓練されました。
訓練手順
このモデルは、LLMのような大規模なワークロードに対応した MosaicML Cloud で訓練されました。Composer 訓練ライブラリと PyTorch FSDP を使用して、128台のA100 - 40GB GPUでのマルチノード訓練を簡単に有効にすることができ、総実行時間は約6.25日でした。モデルは、バッチサイズ = 1024、シーケンス長 = 1024で300Bトークンを、以下の設定のDecoupled AdamWを使って訓練されました。
|
|
lr |
1.6e - 4 |
eps |
1e - 8 |
betas |
[0.9, 0.95] |
weight decay |
1.6e - 5 |
訓練プロセスは非常に安定しており、発散することはありませんでした。
訓練を準備している際、言語モデルのパープレキシティと下流タスクの性能に対して、300Bトークンまで訓練することのメリットがわかりませんでした。この規模のほとんどのモデル(例えば、GPT Neo 2.7B)は300 - 400Bトークンまで訓練されていますが、それらのモデルが使用するデータセットはPubMedよりもはるかに大きいです。例えば、The PileはそのPubMedサブコーパスの8倍のサイズです。
幸いなことに、訓練全体を通じて検証セットと訓練セットのパープレキシティが着実に改善され、予備実験では300Bトークンまで訓練することで下流タスクの性能が向上することが示されました。このことから、このモデルでは300Bトークンまで訓練することは、他の比較可能なモデルよりもはるかに多くのデータの通過を意味するにもかかわらず、やはり価値があることがわかりました。
前処理
このモデルは、PubMedの要約に対して訓練されたカスタムトークナイザーを使用しています。ドメイン固有のモデルを構築する際には、下流タスクの性能を最大化するために、ドメイン内のテキストで訓練されたトークナイザーを使用することが重要であることがわかっています。重要な利点の1つは、一般的な生物医学用語が1つのトークンとして表されることです。
例えば、以下の用語はすべて、生物医学トークナイザーによって1つのトークンにトークン化され、標準的なGPT - 2トークナイザーによって複数のトークンにトークン化されます。
|
|
chromatography |
chrom/atography |
cytotoxicity |
cyt/ot/oxicity |
Immunohistochemistry |
Immun/oh/ist/ochemistry |
photosynthesis |
photos/ynthesis |
probiotic |
prob/iotic |
これにより、モデルはこれらの概念に関する情報を個々のトークン表現にエンコードすることができ、「oh」のような多くの他の用語と共有されるサブワードトークンに分散させる必要がなくなります。
技術仕様
モデルアーキテクチャと目的
BioMedLM 2.7Bは、以下のハイパーパラメータを持つ標準的なGPT - 2の実装(Flash Attentionで訓練)です。
|
|
hidden size |
2560 |
heads |
20 |
layers |
32 |
vocab size |
28896 |
sequence length |
1024 |
コンピュートインフラストラクチャ
このモデルは、LLMのような大規模なワークロードに対応した MosaicML Cloud で訓練されました。Composer 訓練ライブラリと PyTorch FSDP を使用して、128台のA100 - 40GB GPUでのマルチノード訓練を簡単に有効にすることができ、総実行時間は約6.25日でした。
📄 ライセンス
このモデルは、bigscience - bloom - rail - 1.0 ライセンスの下で提供されています。