🚀 astroBERT:天体物理学语言模型
astroBERT是一个专门为天体物理学领域定制的NLP语言模型。本公开仓库包含了NASA/ADS在构建该模型过程中的相关工作,同时还提供了教程和其他相关文件。此模型是区分大小写的(例如,它会将ads
和ADS
视为不同的内容)。
🚀 快速开始
本仓库提供了多种模型和对应的使用教程,能帮助你快速在天体物理学相关的NLP任务中使用astroBERT。
✨ 主要特性
- 定制化模型:针对天体物理学领域进行预训练,能更好地处理该领域的专业文本。
- 多任务支持:支持文本嵌入生成、填空任务、命名实体识别以及文本分类等多种任务。
- 区分大小写:模型能够区分大小写,更精准地处理文本信息。
📦 安装指南
文档未提供安装步骤,因此跳过此章节。
💻 使用示例
基础用法
你可以通过以下教程快速上手使用astroBERT:
📚 详细文档
astroBERT模型
- 基础模型:基于英文文本,使用掩码语言建模(MLM)和下一句预测(NSP)目标进行预训练。该模型在2021年ADASS会议的这篇论文中被提出,并于2022年ADASS会议上公开。
- NER - DEAL模型:在基础模型上添加了一个标记分类头,并在DEAL@WIESP2022命名实体识别任务上进行了微调。必须从
revision='NER - DEAL'
分支加载该模型(详见教程2)。
- SciX分类器:该模型经过微调,可将文本分类到SciX感兴趣的7个类别中,包括天文学、太阳物理学、行星科学、地球科学、NASA资助的生物物理学、其他物理学、其他以及垃圾文本。
BibTeX
@ARTICLE{2021arXiv211200590G,
author = {{Grezes}, Felix and {Blanco-Cuaresma}, Sergi and {Accomazzi}, Alberto and {Kurtz}, Michael J. and {Shapurian}, Golnaz and {Henneken}, Edwin and {Grant}, Carolyn S. and {Thompson}, Donna M. and {Chyla}, Roman and {McDonald}, Stephen and {Hostetler}, Timothy W. and {Templeton}, Matthew R. and {Lockhart}, Kelly E. and {Martinovic}, Nemanja and {Chen}, Shinyi and {Tanner}, Chris and {Protopapas}, Pavlos},
title = "{Building astroBERT, a language model for Astronomy \& Astrophysics}",
journal = {arXiv e-prints},
keywords = {Computer Science - Computation and Language, Astrophysics - Instrumentation and Methods for Astrophysics},
year = 2021,
month = dec,
eid = {arXiv:2112.00590},
pages = {arXiv:2112.00590},
archivePrefix = {arXiv},
eprint = {2112.00590},
primaryClass = {cs.CL},
adsurl = {https://ui.adsabs.harvard.edu/abs/2021arXiv211200590G},
adsnote = {Provided by the SAO/NASA Astrophysics Data System}
}
📄 许可证
本项目采用MIT许可证。