🚀 MaterialsBERT
MaterialsBERTは、自然言語処理の分野において重要な価値を持つモデルです。特定分野のデータを用いて微調整されており、材料科学に関連する下流タスクで優れた性能を発揮し、材料科学の研究に強力な支援を提供します。
🚀 クイックスタート
以下のコードを使用して、PyTorchで与えられたテキストの特徴を取得できます。
from transformers import BertForMaskedLM, BertTokenizer
tokenizer = BertTokenizer.from_pretrained('pranav-s/MaterialsBERT')
model = BertForMaskedLM.from_pretrained('pranav-s/MaterialsBERT')
text = "Enter any text you like"
encoded_input = tokenizer(text, return_tensors='pt')
output = model(**encoded_input)
✨ 主な機能
- 分野特定の微調整:240万件の材料科学の要約データセットを用いて、PubMedBERTモデルを微調整し、様々なNLP下流タスクでの性能を向上させました。
- 優れた性能:材料科学の様々な下流シーケンスラベリングタスクでさらに微調整すると、5つのデータセットのうち3つで、他のベースライン言語モデルを上回ります。
📚 ドキュメント
モデルの説明
特定分野の微調整は、証明されているように、様々なNLPタスクの下流性能を向上させることができます。MaterialsBERTは、生物医学文献を用いて訓練された事前学習言語モデルであるPubMedBERTを微調整しています。生物医学分野と材料科学分野が近いため、このモデルが選ばれました。MaterialsBERTを材料科学の様々な下流シーケンスラベリングタスクでさらに微調整すると、5つのデータセットのうち3つで、他のテストされたベースライン言語モデルを上回ります。
想定される用途と制限
元のモデルはマスク言語モデリングや次文予測に使用できますが、主に材料科学に関連する下流タスクでの微調整に使用されます。このモデルは、主に文や段落(マスクされている場合もある)を使用して決定を下すタスク、例えばシーケンス分類、ラベル分類、または質問応答などの微調整を目的としていることに注意してください。
訓練データ
240万件の材料科学の要約を含む微調整コーパスを使用しました。使用したジャーナル記事のDOI情報は、ファイルtraining_DOI.txtに記載されています。
訓練過程
訓練ハイパーパラメータ
訓練中に以下のハイパーパラメータを使用しました。
- 学習率:5e-05
- 訓練バッチサイズ:32
- 評価バッチサイズ:32
- 乱数シード:42
- オプティマイザ:Adam(beta=(0.9, 0.999)、epsilon=1e-08)
- 学習率スケジューラの種類:線形
- 訓練エポック数:3.0
- 混合精度訓練:Native AMP
フレームワークバージョン
- Transformers 4.17.0
- Pytorch 1.10.2
- Datasets 1.18.3
- Tokenizers 0.11.0
🔧 技術詳細
このモデルは、この 論文で提案されたもので、PubMedBERTモデルを材料科学分野で特定的に微調整しています。大量の材料科学の要約データで訓練することで、材料科学に関連するNLPタスクでより良い性能を発揮するようになりました。
📄 ライセンス
ライセンスの種類はその他(other)です。
📝 引用
もしあなたの研究でMaterialsBERTが役立つことがわかった場合は、以下の論文を引用してください。
@article{materialsbert,
title={A general-purpose material property data extraction pipeline from large polymer corpora using natural language processing},
author={Shetty, Pranav and Rajan, Arunkumar Chitteth and Kuenneth, Chris and Gupta, Sonakshi and Panchumarti, Lakshmi Prerana and Holm, Lauren and Zhang, Chao and Ramprasad, Rampi},
journal={npj Computational Materials},
volume={9},
number={1},
pages={52},
year={2023},
publisher={Nature Publishing Group UK London}
}