🚀 Indus (nasa - smd - ibm - v0.1)
Indus(以前はnasa - smd - ibm - v0.1として知られていました)は、NASA科学ミッション局(SMD)のアプリケーション向けにドメイン適応された、RoBERTaベースのエンコーダ専用のトランスフォーマーモデルです。NASA SMDに関連する科学雑誌や記事でファインチューニングされ、情報検索やインテリジェントサーチなどの自然言語技術を強化することを目指しています。
🚀 クイックスタート
Indusモデルは、NASA SMDに関連する科学的なユースケースでの自然言語処理タスクに使用できます。以下に、基本的な使用方法を示します。
✨ 主な機能
- 固有表現抽出(Named Entity Recognition, NER)
- 情報検索(Information Retrieval)
- 文トランスフォーマー(Sentence Transformers)
- 抽出型質問応答(Extractive QA)
📦 インストール
このモデルを使用するには、transformers
ライブラリをインストールする必要があります。以下のコマンドでインストールできます。
pip install transformers
💻 使用例
基本的な使用法
from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("nasa-impact/nasa-smd-ibm-v0.1")
model = AutoModelForMaskedLM.from_pretrained("nasa-impact/nasa-smd-ibm-v0.1")
text = "This is a [MASK] example."
inputs = tokenizer(text, return_tensors="pt")
outputs = model(**inputs)
高度な使用法
from transformers import AutoTokenizer, AutoModelForQuestionAnswering
import torch
tokenizer = AutoTokenizer.from_pretrained("nasa-impact/nasa-smd-ibm-v0.1")
model = AutoModelForQuestionAnswering.from_pretrained("nasa-impact/nasa-smd-ibm-v0.1")
question = "What is the base model of Indus?"
context = "Indus (previously known as nasa-smd-ibm-v0.1) is a RoBERTa-based, Encoder-only transformer model."
inputs = tokenizer(question, context, return_tensors="pt")
outputs = model(**inputs)
answer_start_scores = outputs.start_logits
answer_end_scores = outputs.end_logits
answer_start = torch.argmax(answer_start_scores)
answer_end = torch.argmax(answer_end_scores) + 1
answer = tokenizer.convert_tokens_to_string(tokenizer.convert_ids_to_tokens(inputs["input_ids"][0][answer_start:answer_end]))
print(answer)
📚 ドキュメント
モデルの詳細
属性 |
详情 |
モデルタイプ |
RoBERTaベースのエンコーダ専用トランスフォーマーモデル |
トークナイザー |
カスタム |
パラメータ数 |
1億2500万 |
事前学習戦略 |
マスク言語モデリング(Masked Language Modeling, MLM) |
蒸留版 |
モデルの蒸留版(3000万パラメータ)はこちらからダウンロードできます: https://huggingface.co/nasa-impact/nasa-smd-ibm-distil-v0.1 |
学習データ
- Wikipedia English (2020年2月1日)
- AGU Publications
- AMS Publications
- Astrophysics Data Systems (ADS)の科学論文
- PubMedのアブストラクト
- PubMedCentral (PMC)(商用ライセンスサブセット)

学習手順
- フレームワーク: fairseq 0.12.1 with PyTorch 1.9.1
- transformersバージョン: 4.2.0
- 戦略: マスク言語モデリング(MLM)
評価
BLURBベンチマーク
(括弧内は10個のランダムシードにわたる標準偏差。データセット全体のマクロ平均と、各タスクのスコアを平均してからタスク平均を平均したマイクロ平均を報告しています。)
気候変動NERとNASA - QAベンチマーク
(気候変動NERとNASA - QAベンチマークの結果。括弧内は複数回の実行にわたる標準偏差。)
さらなるベンチマークと評価については、以下のデータセットカードを参照してください。
- NASA - IRベンチマーク - https://huggingface.co/datasets/nasa-impact/nasa-smd-IR-benchmark
- NASA - QAベンチマーク - https://huggingface.co/datasets/nasa-impact/nasa-smd-qa-benchmark
- 気候変動NERベンチマーク - https://huggingface.co/datasets/ibm/Climate-Change-NER
🔧 技術詳細
このモデルはRoBERTaベースのエンコーダ専用トランスフォーマーモデルで、NASA SMDに関連する科学的なデータでファインチューニングされています。マスク言語モデリング(MLM)を用いて事前学習され、特定の科学分野での自然言語処理タスクに適しています。
📄 ライセンス
このモデルはApache - 2.0ライセンスの下で提供されています。
注意事項
関連するプレプリント論文はこちらで見つけることができます: https://arxiv.org/abs/2405.10725。
引用
この研究が役立った場合は、以下のBibTeXを使用して引用してください。
@misc {nasa-impact_2023,
author = {Masayasu Maraoka and Bishwaranjan Bhattacharjee and Muthukumaran Ramasubramanian and Ikhsa Gurung and Rahul Ramachandran and Manil Maskey and Kaylin Bugbee and Rong Zhang and Yousef El Kurdi and Bharath Dandala and Mike Little and Elizabeth Fancher and Lauren Sanders and Sylvain Costes and Sergi Blanco-Cuaresma and Kelly Lockhart and Thomas Allen and Felix Grazes and Megan Ansdell and Alberto Accomazzi and Sanaz Vahidinia and Ryan McGranaghan and Armin Mehrabian and Tsendgar Lee},
title = { nasa-smd-ibm-v0.1 (Revision f01d42f) },
year = 2023,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-v0.1 },
doi = { 10.57967/hf/1429 },
publisher = { Hugging Face }
}
作成者
IBM Research
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
- Rong Zhang
- Yousef El Kurdi
- Bharath Dandala
NASA SMD
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免責事項
このエンコーダ専用のモデルは現在実験段階にあります。モデルの機能と性能の向上に取り組んでおり、進捗に合わせてコミュニティの皆様にこのモデルを利用し、フィードバックを提供し、その進化に貢献していただくことをお待ちしています。