🚀 Indus-Retriever模型卡片
Indus-Retriever (nasa-smd-ibm-st-v2
) 是一个双编码器句子转换器模型,它是从 nasa-smd-ibm-v0.1
编码器模型微调而来。它是 nasa-smd-ibm-st
的更新版本,性能更优(如下所示)。该模型使用2.71亿个示例以及来自美国国家航空航天局科学任务理事会(SMD)精心策划文档的260万个特定领域数据集示例进行训练。我们的目标是通过这个模型,提升适用于SMD自然语言处理应用的自然语言技术,如信息检索和智能搜索。
你也可以在此处使用该模型的蒸馏版本:https://huggingface.co/nasa-impact/nasa-ibm-st.38m
✨ 主要特性
- 基于
nasa-smd-ibm-v0.1
编码器模型微调,性能更优。
- 使用大规模示例数据和特定领域数据集进行训练。
- 旨在提升信息检索和智能搜索等自然语言技术在SMD相关应用中的表现。
📦 安装指南
文档未提及安装步骤,此部分跳过。
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer, Util
model = SentenceTransformer("nasa-impact/nasa-smd-ibm-st-v2")
input_queries = [
'query: how much protein should a female eat', 'query: summit define']
input_passages = [
"As a general guideline, the CDC's average requirement of protein for women ages 19 to 70 is 46 grams per day. But, as you can see from this chart, you'll need to increase that if you're expecting or training for a marathon. Check out the chart below to see how much protein you should be eating each day.",
"Definition of summit for English Language Learners. : 1 the highest point of a mountain : the top of a mountain. : 2 the highest level. : 3 a meeting or series of meetings between the leaders of two or more governments."]
query_embeddings = model.encode(input_queries)
passage_embeddings = model.encode(input_passages)
print(util.cos_sim(query_embeddings, passage_embeddings))
📚 详细文档
模型详情
属性 |
详情 |
基础编码器模型 |
INDUS |
分词器 |
自定义 |
参数数量 |
1.25亿 |
训练策略 |
句子对及表示相关性的分数。模型独立编码两个句子对并计算余弦相似度,使用相关性分数优化相似度。 |
训练数据
图:句子转换器的开放数据集来源(共2.69亿个)
此外,还使用了从NASA SMD文档中收集的260万个摘要 + 标题对。
训练过程
属性 |
详情 |
框架 |
PyTorch 1.9.1 |
sentence-transformers版本 |
4.30.2 |
策略 |
句子对 |
评估
对以下模型进行了评估:
- All-MiniLM-l6-v2 [sentence-transformers/all-MiniLM-L6-v2]
- BGE-base [BAAI/bge-base-en-v1.5]
- RoBERTa-base [roberta-base]
- nasa-smd-ibm-rtvr_v0.1 [nasa-impact/nasa-smd-ibm-st]
图:BEIR 和 NASA-IR 评估指标
用途
适用于与NASA SMD相关的科学用例。
注意事项
此句子转换器模型目前处于实验阶段。我们正在努力提升模型的能力和性能,在此过程中,我们邀请社区参与使用该模型,提供反馈,并为其发展做出贡献。
引用
如果您认为此工作有帮助,请使用以下BibTeX引用:
@misc {nasa-impact_2024,
author = { {NASA-IMPACT} },
title = { nasa-smd-ibm-st-v2 (Revision d249d84) },
year = 2024,
url = { https://huggingface.co/nasa-impact/nasa-smd-ibm-st-v2 },
doi = { 10.57967/hf/1800 },
publisher = { Hugging Face }
}
归属
- IBM研究团队:Aashka Trivedi、Masayasu Muraoka、Bishwaranjan Bhattacharjee
- NASA SMD团队:Muthukumaran Ramasubramanian、Iksha Gurung、Rahul Ramachandran、Manil Maskey、Kaylin Bugbee、Mike Little、Elizabeth Fancher、Lauren Sanders、Sylvain Costes、Sergi Blanco-Cuaresma、Kelly Lockhart、Thomas Allen、Felix Grazes、Megan Ansdell、Alberto Accomazzi、Sanaz Vahidinia、Ryan McGranaghan、Armin Mehrabian、Tsendgar Lee
📄 许可证
本模型采用Apache-2.0许可证。