🚀 电池科学BERT大小写敏感模型
本模型是基于大量电池研究论文语料库,以掩码语言模型(MLM)为目标进行预训练的模型,初始权重采用了 大小写敏感的科学BERT。该模型在 这篇论文 中被提出,并首次在 这个仓库 中发布。此模型区分大小写,例如 english 和 English 会被视为不同的词汇。
✨ 主要特性
- 基于大规模电池研究论文语料库进行预训练,能学习到电池领域的专业知识。
- 采用掩码语言模型(MLM)目标进行训练,可学习到句子的双向表示。
- 区分大小写,能更精确地处理文本。
📦 安装指南
文档未提及安装步骤,故跳过此章节。
💻 使用示例
基础用法
>>> from transformers import pipeline
>>> unmasker = pipeline('fill-mask', model='batterydata/batteryscibert-cased')
>>> unmasker("Hello I'm a <mask> model.")
高级用法
from transformers import BertTokenizer, BertModel
tokenizer = BertTokenizer.from_pretrained('batterydata/batteryscibert-cased')
model = BertModel.from_pretrained('batterydata/batteryscibert-cased')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
from transformers import BertTokenizer, TFBertModel
tokenizer = BertTokenizer.from_pretrained('batterydata/batteryscibert-cased')
model = TFBertModel.from_pretrained('batterydata/batteryscibert-cased')
text = "Replace me by any text you'd like."
encoded_input = tokenizer(text, return_tensors='tf')
output = model(encoded_input)
📚 详细文档
模型描述
电池科学BERT是一个基于大规模电池研究论文语料库,以自监督方式进行预训练的Transformer模型,初始权重采用了 大小写敏感的科学BERT。这意味着它仅在原始文本上进行预训练,没有人工对文本进行任何标注(因此可以使用大量公开可用的数据),并通过自动流程从这些文本中生成输入和标签。
更确切地说,它是使用掩码语言模型(MLM)目标进行预训练的。对于一个句子,模型会随机掩盖输入中15%的单词,然后将整个被掩盖的句子输入模型,并预测被掩盖的单词。这与传统的循环神经网络(RNN)不同,RNN通常是逐个处理单词,也与像GPT这样的自回归模型不同,自回归模型会在内部掩盖未来的标记。这种方式使模型能够学习到句子的双向表示。
通过这种方式,模型学习到英语语言的内部表示,可用于提取对下游任务有用的特征。例如,如果您有一个带标签的句子数据集,可以使用BERT模型生成的特征作为输入,训练一个标准的分类器。
训练数据
电池科学BERT模型在初始化 大小写敏感的科学BERT 权重后,仅在电池论文的全文上进行预训练。论文语料库包含了从2000年到2021年6月期间,由皇家化学学会(RSC)、爱思唯尔(Elsevier)和施普林格(Springer)等出版商发表的总共400,366篇电池研究论文。DOI列表可在 Github 上找到。
训练过程
预处理
文本使用WordPiece进行分词,词汇表大小为31,116。模型的输入格式如下:
[CLS] 句子A [SEP] 句子B [SEP]
每个句子的掩码过程细节如下:
- 15%的标记被掩盖。
- 在80%的情况下,被掩盖的标记被替换为
[MASK]
。
- 在10%的情况下,被掩盖的标记被替换为一个与原标记不同的随机标记。
- 在剩下10%的情况下,被掩盖的标记保持不变。
预训练
该模型在8个NVIDIA DGX A100 GPU上进行了1,000,000步的训练,批次大小为256。序列长度限制为512个标记。使用的优化器是Adam,学习率为2e-5,\(\beta_{1} = 0.9\),\(\beta_{2} = 0.999\),权重衰减为0.01,学习率在10,000步内进行预热,之后线性衰减。
预期用途和限制
您可以使用原始模型进行掩码语言建模,但它主要用于在下游任务上进行微调。请查看 模型中心 以寻找针对您感兴趣的任务进行微调的版本。
请注意,此模型主要旨在针对使用整个句子(可能被掩盖)进行决策的任务进行微调,例如序列分类、标记分类或问答。对于文本生成等任务,您应该考虑像GPT2这样的模型。
评估结果
最终损失:1.0505。
作者
- 黄舒:
sh2009 [at] cam.ac.uk
- 杰奎琳·科尔:
jmc61 [at] cam.ac.uk
引用
BatteryBERT: A Pre-trained Language Model for Battery Database Enhancement
🔧 技术细节
文档中关于技术细节的描述已在详细文档中体现,此处不再重复。
📄 许可证
本模型使用的许可证为 Apache-2.0。
属性 |
详情 |
模型类型 |
基于Transformer架构的预训练语言模型 |
训练数据 |
2000年至2021年6月期间,由皇家化学学会(RSC)、爱思唯尔(Elsevier)和施普林格(Springer)等出版商发表的400,366篇电池研究论文 |