🚀 BioMedLM 2.7B 模型介紹
BioMedLM 2.7B 是一個專門基於生物醫學摘要和論文訓練的語言模型。它在多種生物醫學 NLP 任務中表現出色,如在 MedQA 生物醫學問答任務中達到了 50.3% 的準確率。該模型由斯坦福 CRFM 和 MosaicML 聯合開發,旨在推動生物醫學 NLP 應用的發展以及負責任地訓練和利用特定領域語言模型的最佳實踐。
📚 詳細文檔
模型詳情
BioMedLM 2.7B 是專門針對來自 The Pile 的生物醫學摘要和論文進行訓練的新型語言模型。這種類 GPT 模型在多種生物醫學 NLP 任務中能取得出色的效果,例如在 MedQA 生物醫學問答任務中達到了 50.3% 的準確率,創造了新的行業水平。
作為自迴歸語言模型,BioMedLM 2.7B 也具備自然語言生成能力。不過,我們才剛剛開始探索該模型的生成能力和侷限性,並且強調該模型的生成能力僅用於研究目的,不適合用於生產環境。發佈此模型,我們希望推動生物醫學 NLP 應用的發展,以及負責任地訓練和利用特定領域語言模型的最佳實踐;可靠性、真實性和可解釋性是我們首要關注的問題。
該模型由 斯坦福 CRFM 和 MosaicML 聯合開發。
模型使用
此模型遵循用於 [BLOOM](https://huggingface.co/bigscience/bloom - 1b1) 的 BigScience Open RAIL - M 許可證 的條款。請注意,除其他限制外,此許可證禁止將模型(或其衍生產品)用於“提供醫療建議和醫學結果解釋”。如果您擔心您的使用場景符合此限制的“字面意思”,但不符合其“精神”,可以聯繫我們進行討論。
直接使用
可以使用該模型生成文本,這有助於實驗和了解其能力。但不應直接將其用於生產或可能直接影響人們的工作。
下游使用
我們使用該模型的主要方式是針對下游問答任務進行微調,我們建議以這種方式使用該模型。
超出適用範圍的使用
我們不建議在生產環境中使用該模型進行自然語言生成,無論是否經過微調。
偏差、風險和侷限性
大量研究已經探討了語言模型的偏差和公平性問題(例如,參見 [Sheng 等人 (2021)](https://aclanthology.org/2021.acl - long.330.pdf))。模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。
建議
雖然該模型能夠生成自然語言文本,但我們才剛剛開始探索這種能力及其侷限性。在醫學這樣的領域,瞭解這些侷限性尤為重要。因此,我們強烈建議不要在生產環境中使用該模型進行自然語言生成。
訓練詳情
訓練數據
該模型基於 The Pile 中的 Pubmed 摘要和全文進行訓練。
訓練過程
該模型在 MosaicML Cloud 上進行訓練,這是一個專為像大語言模型這樣的大型工作負載設計的平臺。使用 Composer 訓練庫和 PyTorch FSDP,可以輕鬆地在 128 個 A100 - 40GB GPU 上實現多節點訓練,整個訓練過程大約在 6.25 天內完成。模型以批量大小為 1024、序列長度為 1024 對 300B 個標記進行訓練,使用解耦 AdamW 優化器,設置如下:
參數 |
值 |
lr |
1.6e - 4 |
eps |
1e - 8 |
betas |
[0.9, 0.95] |
weight decay |
1.6e - 5 |
訓練過程非常順利,沒有出現任何發散問題。
在準備訓練時,我們不確定將語言模型訓練到 300B 個標記對語言模型困惑度和下游任務性能的好處。雖然大多數這種規模的模型(例如 GPT Neo 2.7B)訓練到 300 - 400B 個標記,但這些模型使用的數據集比 PubMed 大得多。例如,The Pile 的大小是其 PubMed 子語料庫的 8 倍。
幸運的是,在整個訓練過程中,我們確實看到驗證集和訓練集的困惑度持續改善,初步實驗表明,當訓練到完整的 300B 個標記時,下游任務的性能有所提高。我們的結論是,即使這意味著比同類模型對數據進行更多次的遍歷,但將模型訓練到完整的 300B 個標記確實是值得的。
預處理
該模型使用在 PubMed 摘要上訓練的自定義分詞器。在構建特定領域的模型時,我們發現使用在領域內文本上訓練的分詞器對於最大化下游任務的性能非常重要。一個關鍵好處是常見的生物醫學術語被表示為完整的標記。
例如,以下術語由生物醫學分詞器分詞為單個標記,而由標準 GPT - 2 分詞器分詞為多個標記:
術語 |
標準 GPT - 2 分詞結果 |
chromatography |
chrom/atography |
cytotoxicity |
cyt/ot/oxicity |
Immunohistochemistry |
Immun/oh/ist/ochemistry |
photosynthesis |
photos/ynthesis |
probiotic |
prob/iotic |
這使得模型能夠在單個標記表示中編碼有關這些概念的信息,而不是像“oh”這樣與許多其他術語共享的子詞標記那樣分散開來。
技術規格
模型架構和目標
BioMedLM 2.7B 是標準的 GPT - 2 實現(使用 Flash Attention 進行訓練),具有以下超參數:
參數 |
值 |
hidden size |
2560 |
heads |
20 |
layers |
32 |
vocab size |
28896 |
sequence length |
1024 |
計算基礎設施
該模型在 MosaicML Cloud 上進行訓練,這是一個專為像大語言模型這樣的大型工作負載設計的平臺。使用 Composer 訓練庫和 PyTorch FSDP,可以輕鬆地在 128 個 A100 - 40GB GPU 上實現多節點訓練,整個訓練過程大約在 6.25 天內完成。
許可證
本模型使用 bigscience - bloom - rail - 1.0 許可證。