🚀 GeoBERT
GeoBERT是一個命名實體識別(NER)模型,它在地球科學語料庫數據集上對SciBERT進行了微調。該模型在標記的地球科學語料庫數據集(約100萬個句子)上進行訓練。
🚀 快速開始
如何使用HuggingFace調用GeoBERT
加載GeoBERT及其子詞分詞器:
from transformers import AutoTokenizer, AutoModelForTokenClassification
tokenizer = AutoTokenizer.from_pretrained("botryan96/GeoBERT")
model = AutoModelForTokenClassification.from_pretrained("botryan96/GeoBERT")
from transformers import pipeline
ner_machine = pipeline('ner',model = models,tokenizer=tokenizer, aggregation_strategy="simple")
sentence = 'In North America, the water storage in the seepage face model is higher than the base case because positive pore pressure is requisite for drainage through a seepage face boundary condition. The result from the resistivity data supports the notion, especially in the northern part of the Sandstone Sediment formation. The active formation of America has a big potential for Oil and Gas based on the seismic section, has been activated since the Paleozoic'
ner_machine(sentence)
✨ 主要特性
預期用途
此模型中的命名實體識別(NER)產品旨在識別與地球科學相關的四種主要語義類型或類別。
- GeoPetro:適用於屬於地球科學所有術語的任何實體。
- GeoMeth:適用於與地球科學相關的所有工具或方法。
- GeoLoc:用於識別地質位置。
- GeoTime:用於識別地質時間尺度實體。
🔧 技術細節
訓練超參數
訓練期間使用了以下超參數:
- 優化器:
{'name': 'AdamWeightDecay', 'learning_rate': {'class_name': 'PolynomialDecay', 'config': {'initial_learning_rate': 2e-05, 'decay_steps': 14000, 'end_learning_rate': 0.0, 'power': 1.0, 'cycle': False, 'name': None}}, 'decay': 0.0, 'beta_1': 0.9, 'beta_2': 0.999, 'epsilon': 1e-08, 'amsgrad': False, 'weight_decay_rate': 0.01}
- 訓練精度:混合浮點16位(mixed_float16)
框架版本
- Transformers 4.22.1
- TensorFlow 2.10.0
- Datasets 2.4.0
- Tokenizers 0.12.1
📚 詳細文檔
模型性能(指標:seqeval)
實體 |
精確率 |
召回率 |
F1值 |
GeoLoc |
0.9727 |
0.9591 |
0.9658 |
GeoMeth |
0.9433 |
0.9447 |
0.9445 |
GeoPetro |
0.9767 |
0.9745 |
0.9756 |
GeoTime |
0.9695 |
0.9666 |
0.9680 |