MatTPUSciBERT開源語言模型 - 專為提升材料科學文本理解能力設計

首頁

Mattpuscibert

由lfoppiano開發

基於SciBERT框架，在材料科學領域70萬篇論文全文上預訓練的語言模型，專為提升材料科學文本理解能力而設計

大型語言模型

Transformers

#材料科學NLP #TPU加速預訓練 #超導體識別

下載量 161

發布時間 : 9/21/2022

模型概述

MatTPUSciBERT是針對材料科學領域優化的BERT模型，通過領域特定數據預訓練和詞表擴充，顯著提升材料科學文獻的命名實體識別和物理量提取能力

模型特點

材料科學領域優化

使用70萬篇材料科學論文全文進行預訓練，顯著提升領域文本理解能力

擴展領域詞表

通過KeyBERT提取100個材料科學專有詞彙擴充原始SciBERT詞表

TPU高效訓練

在Google Cloud TPU上進行兩階段訓練（80萬步+10萬步），優化訓練效率

多任務驗證

在超導體命名實體識別和物理量提取兩個典型任務上驗證模型性能

模型能力

材料科學文本理解

超導體命名實體識別

物理量提取

科學文獻信息抽取

使用案例

材料科學研究

超導體材料發現

從科學文獻中自動識別新型超導體材料及其特性

F1值達到83.61%，優於同類模型

材料特性量化分析

自動提取文獻中報道的材料物理量數據

F1值達到87.46%，與基線模型相當

科學文獻挖掘

材料數據庫構建

自動從大量文獻中提取結構化材料數據

🚀 材料科學BERT（TPU）：提升材料科學領域的語言理解能力

本項目旨在藉助預訓練模型，提升在材料科學領域的語言理解能力，通過特定語料庫和訓練策略優化模型，為材料科學研究提供更精準的文本處理支持。

🚀 快速開始

本項目是基於SciBERT的模型，使用材料科學領域的科學全文進行預訓練。

✨ 主要特性

數據收集：從國立材料科學研究所（NIMS）TDM平臺（https://dice.nims.go.jp/services/TDM - PF/en/）提供的約700000篇文章中收集全文，構建了名為ScienceCorpus（SciCorpus）的數據集。
詞彙擴展：在SciBERT詞彙表（32k個標記）的基礎上，使用關鍵詞建模器（KeyBERT）從SciCorpus中提取了100個特定領域的未知詞彙。
預訓練設置：以原始SciBERT的權重為起始條件，在Google Cloud上使用TPU（張量處理單元）對模型MatTpuSciBERT進行預訓練：
- 進行800000步訓練，批次大小為256，最大序列長度為512。
- 進行100000步訓練，批次大小為2048，最大序列長度為128。
微調與測試：在超導體命名實體識別（NER）任務（https://github.com/lfoppiano/grobid - superconductors）和物理量命名實體識別任務（https://github.com/kermitt2/grobid - quantities）上進行微調與測試。

👨‍🔬 作者

Luca Foppiano
Pedro Ortiz Suarez

📚 詳細文檔

超導體命名實體識別（NER）

模型	精確率	召回率	F1值
SciBERT（基線）	81.62%	84.23%	82.90%
MatSciBERT (Gupta)	81.45%	84.36%	82.88%
MatTPUSciBERT	82.13%	85.15%	83.61%
MatBERT (Ceder)	81.25%	83.99%	82.60%
BatteryScibert - cased	81.09%	84.14%	82.59%

物理量命名實體識別（NER）

模型	精確率	召回率	F1值
SciBERT（基線）	88.73%	86.76%	87.73%
MatSciBERT (Gupta)	84.98%	90.12%	87.47%
MatTPUSciBERT	88.62%	86.33%	87.46%
MatBERT (Ceder)	85.08%	89.93%	87.44%
BatteryScibert - cased	85.02%	89.30%	87.11%
BatteryScibert - cased	81.09%	84.14%	82.59%