🚀 MaterialsBERT
MaterialsBERT 是一個在自然語言處理領域具有重要價值的模型,它基於特定領域的數據進行微調,能夠在材料科學相關的下游任務中表現出色,為材料科學研究提供了強大的支持。
🚀 快速開始
你可以使用以下代碼在 PyTorch 中獲取給定文本的特徵:
from transformers import BertForMaskedLM, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('pranav-s/MaterialsBERT')
model = BertForMaskedLM.from_pretrained('pranav-s/MaterialsBERT')
text = "Enter any text you like"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
✨ 主要特性
- 領域特定微調:在 240 萬篇材料科學摘要數據集上對 PubMedBERT 模型 進行微調,提升了在各種 NLP 下游任務中的性能。
- 性能優越:在材料科學的各種下游序列標註任務中進一步微調時,在五個數據集中的三個數據集上優於其他基線語言模型。
📚 詳細文檔
模型描述
特定領域的微調已被 證明 可以提高各種 NLP 任務的下游性能。MaterialsBERT 對 PubMedBERT 進行了微調,PubMedBERT 是一個使用生物醫學文獻訓練的預訓練語言模型。選擇這個模型是因為生物醫學領域與材料科學領域相近。MaterialsBERT 在材料科學的各種下游序列標註任務中進一步微調後,在五個數據集中的三個數據集上優於其他測試的基線語言模型。
預期用途與限制
你可以將原始模型用於掩碼語言建模或下一句預測,但它主要用於在與材料科學相關的下游任務中進行微調。請注意,該模型主要旨在針對使用句子或段落(可能是掩碼的)來做出決策的任務進行微調,例如序列分類、標記分類或問答。
訓練數據
使用了一個包含 240 萬篇材料科學摘要的微調語料庫。所用期刊文章的 DOI 信息在文件 training_DOI.txt 中提供。
訓練過程
訓練超參數
訓練期間使用了以下超參數:
- 學習率:5e-05
- 訓練批次大小:32
- 評估批次大小:32
- 隨機種子:42
- 優化器:Adam(beta=(0.9, 0.999),epsilon=1e-08)
- 學習率調度器類型:線性
- 訓練輪數:3.0
- 混合精度訓練:Native AMP
框架版本
- Transformers 4.17.0
- Pytorch 1.10.2
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術細節
該模型在 這篇 論文中被提出,是對 PubMedBERT 模型在材料科學領域的特定微調,通過在大量材料科學摘要數據上的訓練,使得模型在材料科學相關的 NLP 任務中表現更優。
📄 許可證
許可證類型為其他(other)。
📝 引用
如果你在研究中發現 MaterialsBERT 很有用,請引用以下論文:
@article{materialsbert,
title={A general-purpose material property data extraction pipeline from large polymer corpora using natural language processing},
author={Shetty, Pranav and Rajan, Arunkumar Chitteth and Kuenneth, Chris and Gupta, Sonakshi and Panchumarti, Lakshmi Prerana and Holm, Lauren and Zhang, Chao and Ramprasad, Rampi},
journal={npj Computational Materials},
volume={9},
number={1},
pages={52},
year={2023},
publisher={Nature Publishing Group UK London}
}