🚀 Indus(nasa - smd - ibm - v0.1)模型卡片
Indus(前稱為nasa - smd - ibm - v0.1)是一個基於RoBERTa的僅編碼器Transformer模型,針對美國國家航空航天局科學任務理事會(NASA SMD)的應用進行了領域適配。它在與NASA SMD相關的科學期刊和文章上進行了微調,旨在增強信息檢索和智能搜索等自然語言技術。
📚 詳細文檔
模型詳情
屬性 |
詳情 |
基礎模型 |
RoBERTa |
分詞器 |
自定義 |
參數數量 |
1.25億 |
預訓練策略 |
掩碼語言模型(MLM) |
蒸餾版本 |
你可以從以下鏈接下載該模型的蒸餾版本(3000萬參數):[nasa - smd - ibm - distil - v0.1](https://huggingface.co/nasa - impact/nasa - smd - ibm - distil - v0.1) |
訓練數據
- 2020年2月1日的英文維基百科
- 美國地球物理聯合會(AGU)出版物
- 美國氣象學會(AMS)出版物
- 天體物理學數據系統(ADS)的科學論文
- PubMed摘要
- PubMedCentral(PMC)(商業許可子集)

訓練過程
- 框架:使用PyTorch 1.9.1的fairseq 0.12.1
- transformers版本:4.2.0
- 策略:掩碼語言模型(MLM)
評估
BLURB基準測試

(括號內為10個隨機種子的標準差。跨數據集報告宏平均,通過對每個任務的分數求平均,然後對任務平均值求平均來計算微平均。)
氣候變化命名實體識別(NER)和NASA問答(QA)基準測試

(氣候變化NER和NASA - QA基準測試結果。括號內為多次運行的標準差。)
更多基準測試和評估請參考以下數據集卡片:
- [NASA信息檢索(IR)基準測試](https://huggingface.co/datasets/nasa - impact/nasa - smd - IR - benchmark)
- [NASA問答(QA)基準測試](https://huggingface.co/datasets/nasa - impact/nasa - smd - qa - benchmark)
- [氣候變化命名實體識別(NER)基準測試](https://huggingface.co/datasets/ibm/Climate - Change - NER)
用途
該模型可用於與NASA SMD相關的科學用例,包括:
- 命名實體識別(NER)
- 信息檢索
- 句子Transformer
- 抽取式問答
⚠️ 重要提示
相關預印本論文可在以下鏈接找到:https://arxiv.org/abs/2405.10725。
📄 許可證
本模型採用Apache 2.0許可證。
📖 引用
如果您覺得這項工作有用,請使用以下BibTeX引用:
@misc {nasa-impact_2023,
author = {Masayasu Maraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
👥 貢獻者
IBM研究團隊
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD團隊
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco - Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
🛠️ 免責聲明
這個僅編碼器的模型目前處於實驗階段。我們正在努力提高模型的能力和性能,在此過程中,我們邀請社區使用該模型,提供反饋,併為其發展做出貢獻。