🚀 電池科學BERT大小寫敏感模型
本模型是基於大量電池研究論文語料庫,以掩碼語言模型(MLM)為目標進行預訓練的模型,初始權重採用了 大小寫敏感的科學BERT。該模型在 這篇論文 中被提出,並首次在 這個倉庫 中發佈。此模型區分大小寫,例如 english 和 English 會被視為不同的詞彙。
✨ 主要特性
- 基於大規模電池研究論文語料庫進行預訓練,能學習到電池領域的專業知識。
- 採用掩碼語言模型(MLM)目標進行訓練,可學習到句子的雙向表示。
- 區分大小寫,能更精確地處理文本。
📦 安裝指南
文檔未提及安裝步驟,故跳過此章節。
💻 使用示例
基礎用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='batterydata/batteryscibert-cased')
>>> unmasker("Hello I'm a <mask> model.")
高級用法
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('batterydata/batteryscibert-cased')
model = BertModel.from_pretrained('batterydata/batteryscibert-cased')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('batterydata/batteryscibert-cased')
model = TFBertModel.from_pretrained('batterydata/batteryscibert-cased')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 詳細文檔
模型描述
電池科學BERT是一個基於大規模電池研究論文語料庫,以自監督方式進行預訓練的Transformer模型,初始權重採用了 大小寫敏感的科學BERT。這意味著它僅在原始文本上進行預訓練,沒有人工對文本進行任何標註(因此可以使用大量公開可用的數據),並通過自動流程從這些文本中生成輸入和標籤。
更確切地說,它是使用掩碼語言模型(MLM)目標進行預訓練的。對於一個句子,模型會隨機掩蓋輸入中15%的單詞,然後將整個被掩蓋的句子輸入模型,並預測被掩蓋的單詞。這與傳統的循環神經網絡(RNN)不同,RNN通常是逐個處理單詞,也與像GPT這樣的自迴歸模型不同,自迴歸模型會在內部掩蓋未來的標記。這種方式使模型能夠學習到句子的雙向表示。
通過這種方式,模型學習到英語語言的內部表示,可用於提取對下游任務有用的特徵。例如,如果您有一個帶標籤的句子數據集,可以使用BERT模型生成的特徵作為輸入,訓練一個標準的分類器。
訓練數據
電池科學BERT模型在初始化 大小寫敏感的科學BERT 權重後,僅在電池論文的全文上進行預訓練。論文語料庫包含了從2000年到2021年6月期間,由皇家化學學會(RSC)、愛思唯爾(Elsevier)和施普林格(Springer)等出版商發表的總共400,366篇電池研究論文。DOI列表可在 Github 上找到。
訓練過程
預處理
文本使用WordPiece進行分詞,詞彙表大小為31,116。模型的輸入格式如下:
[CLS] 句子A [SEP] 句子B [SEP]
每個句子的掩碼過程細節如下:
- 15%的標記被掩蓋。
- 在80%的情況下,被掩蓋的標記被替換為
[MASK]
。
- 在10%的情況下,被掩蓋的標記被替換為一個與原標記不同的隨機標記。
- 在剩下10%的情況下,被掩蓋的標記保持不變。
預訓練
該模型在8個NVIDIA DGX A100 GPU上進行了1,000,000步的訓練,批次大小為256。序列長度限制為512個標記。使用的優化器是Adam,學習率為2e-5,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.999\),權重衰減為0.01,學習率在10,000步內進行預熱,之後線性衰減。
預期用途和限制
您可以使用原始模型進行掩碼語言建模,但它主要用於在下游任務上進行微調。請查看 模型中心 以尋找針對您感興趣的任務進行微調的版本。
請注意,此模型主要旨在針對使用整個句子(可能被掩蓋)進行決策的任務進行微調,例如序列分類、標記分類或問答。對於文本生成等任務,您應該考慮像GPT2這樣的模型。
評估結果
最終損失:1.0505。
作者
- 黃舒:
sh2009 [at] cam.ac.uk
- 傑奎琳·科爾:
jmc61 [at] cam.ac.uk
引用
BatteryBERT: A Pre-trained Language Model for Battery Database Enhancement
🔧 技術細節
文檔中關於技術細節的描述已在詳細文檔中體現,此處不再重複。
📄 許可證
本模型使用的許可證為 Apache-2.0。
屬性 |
詳情 |
模型類型 |
基於Transformer架構的預訓練語言模型 |
訓練數據 |
2000年至2021年6月期間,由皇家化學學會(RSC)、愛思唯爾(Elsevier)和施普林格(Springer)等出版商發表的400,366篇電池研究論文 |