🚀 Indus-Retriever モデルカード
Indus-Retriever (nasa-smd-ibm-st-v2
) は、Bi-encoder 方式の文埋め込みモデルで、nasa-smd-ibm-v0.1
エンコーダーモデルをファインチューニングしたものです。これは nasa-smd-ibm-st
の更新版で、より良い性能を発揮します(下記参照)。このモデルは、2億7100万件のサンプルと、NASA Science Mission Directorate (SMD) が選りすぐった文書から抽出した260万件のドメイン特化データセットを用いて訓練されています。このモデルを使用することで、SMDの自然言語処理アプリケーションに適用される情報検索やインテリジェントサーチなどの自然言語技術を強化することを目指しています。
モデルの蒸留版はこちらから利用できます: https://huggingface.co/nasa-impact/nasa-ibm-st.38m
🚀 クイックスタート
本モデルは、自然言語技術の強化を目的としており、情報検索やインテリジェントサーチなどのSMDの自然言語処理アプリケーションに適用できます。以下のセクションでは、モデルの詳細、訓練データ、訓練手順、評価結果、使用方法などについて説明します。
✨ 主な機能
これらの機能は、NASA SMD関連の科学的なユースケースに適用できます。
📦 インストール
本モデルは、sentence-transformers
ライブラリを使用しています。以下のコードを実行することで、モデルを使用できます。
from sentence_transformers import SentenceTransformer, Util
model = SentenceTransformer("nasa-impact/nasa-smd-ibm-st-v2")
💻 使用例
基本的な使用法
from sentence_transformers import SentenceTransformer, Util
model = SentenceTransformer("nasa-impact/nasa-smd-ibm-st-v2")
input_queries = [
'query: how much protein should a female eat', 'query: summit define']
input_passages = [
"As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
"Definition of summit for English Language Learners. : 1 the highest point of a mountain : the top of a mountain. : 2 the highest level. : 3 a meeting or series of meetings between the leaders of two or more governments."]
query_embeddings = model.encode(input_queries)
passage_embeddings = model.encode(input_passages)
print(util.cos_sim(query_embeddings, passage_embeddings))
📚 ドキュメント
モデル詳細
属性 |
详情 |
ベースエンコーダーモデル |
INDUS |
トークナイザー |
カスタム |
パラメータ数 |
1億2500万 |
訓練戦略 |
文のペアと関連性を示すスコア。モデルは2つの文のペアを独立してエンコードし、コサイン類似度を計算します。類似度は関連性スコアを使用して最適化されます。 |
訓練データ
図: 文埋め込みモデルのオープンデータセットソース(合計2億6900万件)
さらに、NASA SMDの文書から収集された260万件の要約 + タイトルのペアが追加されています。
訓練手順
- フレームワーク: PyTorch 1.9.1
- sentence-transformersバージョン: 4.30.2
- 戦略: 文のペア
評価
以下のモデルが評価されています:
- All-MiniLM-l6-v2 [sentence-transformers/all-MiniLM-L6-v2]
- BGE-base [BAAI/bge-base-en-v1.5]
- RoBERTa-base [roberta-base]
- nasa-smd-ibm-rtvr_v0.1 [nasa-impact/nasa-smd-ibm-st]
図: BEIR と NASA-IR の評価指標
🔧 技術詳細
本モデルは、nasa-smd-ibm-v0.1
エンコーダーモデルをベースに、文のペアと関連性を示すスコアを用いてファインチューニングされています。モデルは2つの文のペアを独立してエンコードし、コサイン類似度を計算します。類似度は関連性スコアを使用して最適化されます。訓練には、2億7100万件のサンプルと、NASA SMDの文書から収集された260万件のドメイン特化データセットが使用されています。
📄 ライセンス
このモデルは、Apache-2.0ライセンスの下で提供されています。
引用
このモデルが役に立った場合は、以下のBibTeXを使用して引用してください:
@misc {nasa-impact_2024,
author = { {NASA-IMPACT} },
title = { nasa-smd-ibm-st-v2 (Revision d249d84) },
year = 2024,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-st-v2 },
doi = { 10.57967/hf/1800 },
publisher = { Hugging Face }
}
作成者
IBM Research
- Aashka Trivedi
- Masayasu Muraoka
- Bishwaranjan Bhattacharjee
NASA SMD
- Muthukumaran Ramasubramanian
- Iksha Gurung
- Rahul Ramachandran
- Manil Maskey
- Kaylin Bugbee
- Mike Little
- Elizabeth Fancher
- Lauren Sanders
- Sylvain Costes
- Sergi Blanco-Cuaresma
- Kelly Lockhart
- Thomas Allen
- Felix Grazes
- Megan Ansdell
- Alberto Accomazzi
- Sanaz Vahidinia
- Ryan McGranaghan
- Armin Mehrabian
- Tsendgar Lee
免責事項
この文埋め込みモデルは現在実験段階です。モデルの機能と性能の向上に取り組んでおり、進捗に合わせてコミュニティの皆様にこのモデルを利用していただき、フィードバックを提供し、発展に貢献していただけることを期待しています。