🚀 Indus(nasa - smd - ibm - v0.1)模型卡片
Indus(前称为nasa - smd - ibm - v0.1)是一个基于RoBERTa的仅编码器Transformer模型,针对美国国家航空航天局科学任务理事会(NASA SMD)的应用进行了领域适配。它在与NASA SMD相关的科学期刊和文章上进行了微调,旨在增强信息检索和智能搜索等自然语言技术。
📚 详细文档
模型详情
属性 |
详情 |
基础模型 |
RoBERTa |
分词器 |
自定义 |
参数数量 |
1.25亿 |
预训练策略 |
掩码语言模型(MLM) |
蒸馏版本 |
你可以从以下链接下载该模型的蒸馏版本(3000万参数):[nasa - smd - ibm - distil - v0.1](https://huggingface.co/nasa - impact/nasa - smd - ibm - distil - v0.1) |
训练数据
- 2020年2月1日的英文维基百科
- 美国地球物理联合会(AGU)出版物
- 美国气象学会(AMS)出版物
- 天体物理学数据系统(ADS)的科学论文
- PubMed摘要
- PubMedCentral(PMC)(商业许可子集)

训练过程
- 框架:使用PyTorch 1.9.1的fairseq 0.12.1
- transformers版本:4.2.0
- 策略:掩码语言模型(MLM)
评估
BLURB基准测试

(括号内为10个随机种子的标准差。跨数据集报告宏平均,通过对每个任务的分数求平均,然后对任务平均值求平均来计算微平均。)
气候变化命名实体识别(NER)和NASA问答(QA)基准测试

(气候变化NER和NASA - QA基准测试结果。括号内为多次运行的标准差。)
更多基准测试和评估请参考以下数据集卡片:
- [NASA信息检索(IR)基准测试](https://huggingface.co/datasets/nasa - impact/nasa - smd - IR - benchmark)
- [NASA问答(QA)基准测试](https://huggingface.co/datasets/nasa - impact/nasa - smd - qa - benchmark)
- [气候变化命名实体识别(NER)基准测试](https://huggingface.co/datasets/ibm/Climate - Change - NER)
用途
该模型可用于与NASA SMD相关的科学用例,包括:
- 命名实体识别(NER)
- 信息检索
- 句子Transformer
- 抽取式问答
⚠️ 重要提示
相关预印本论文可在以下链接找到:https://arxiv.org/abs/2405.10725。
📄 许可证
本模型采用Apache 2.0许可证。
📖 引用
如果您觉得这项工作有用,请使用以下BibTeX引用:
@misc {nasa-impact_2023,
author = {Masayasu Maraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
👥 贡献者
IBM研究团队
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD团队
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco - Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
🛠️ 免责声明
这个仅编码器的模型目前处于实验阶段。我们正在努力提高模型的能力和性能,在此过程中,我们邀请社区使用该模型,提供反馈,并为其发展做出贡献。