🚀 智能知识访问管理器 (MIKA)
这是一个定制的信息检索模型,基于 sentence-transformers 构建。它能将句子和段落映射到 768 维的密集向量空间,可用于聚类或语义搜索等任务。该模型在工程文档上进行了定制训练,适用于非对称信息检索,能在设计阶段识别与查询相关的工程文档。
🚀 快速开始
安装依赖
若你已安装 sentence-transformers,使用此模型将十分便捷。首先,执行以下命令安装:
pip install -U sentence-transformers
使用示例
基础用法
安装完成后,你可以按如下方式使用该模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("NASA-AIML/MIKA_Custom_IR")
embeddings = model.encode(sentences)
print(embeddings)
✨ 主要特性
- 定制训练:在工程文档上进行定制训练,适用于非对称信息检索。
- 高效映射:将句子和段落映射到 768 维的密集向量空间。
- 多任务支持:可用于聚类、语义搜索等任务。
📦 安装指南
使用该模型前,需安装 sentence-transformers:
pip install -U sentence-transformers
💻 使用示例
基础用法
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("NASA-AIML/MIKA_Custom_IR")
embeddings = model.encode(sentences)
print(embeddings)
📚 详细文档
评估结果
该模型使用 k=10、20 和 30 时的精确率进行了评估,并计算了平均精度均值 (MAP),同时与预训练的 SBERT 进行了对比。
信息检索方法 |
平均精度均值 (MAP) |
预训练的 sBERT |
0.648 |
微调后的 sBERT |
0.807 |
训练参数
数据加载器
sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
,长度为 693,参数如下:
{'batch_size': 32}
损失函数
sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss
,参数如下:
{'scale': 20.0, 'similarity_fct': 'cos_sim'}
训练方法参数
{
"epochs": 2,
"evaluation_steps": 100,
"evaluator": "sentence_transformers.evaluation.InformationRetrievalEvaluator.InformationRetrievalEvaluator",
"max_grad_norm": 1,
"optimizer_class": "<class 'transformers.optimization.AdamW'>",
"optimizer_params": {
"lr": 2e-05
},
"scheduler": "WarmupLinear",
"steps_per_epoch": null,
"warmup_steps": 0,
"weight_decay": 0.01
}
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
(2): Normalize()
)
引用与作者
Walsh, HS, & Andrade, SR. "Semantic Search With Sentence-BERT for Design Information Retrieval." Proceedings of the ASME 2022 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Volume 2: 42nd Computers and Information in Engineering Conference (CIE). St. Louis, Missouri, USA. August 14–17, 2022. V002T02A066. ASME. https://doi.org/10.1115/DETC2022-89557
版权声明
版权所有 © 2023 美国政府,由美国国家航空航天局局长代表。保留所有权利。
免责声明
本软件按“原样”提供,不提供任何形式的保证,无论是明示、暗示还是法定保证,包括但不限于本软件符合规格的保证、适销性的暗示保证、特定用途适用性的保证、不侵权的保证、本软件无错误的保证,或如果提供文档,文档符合本软件的保证。本协议不以任何方式构成政府机构或任何先前接收方对使用本软件产生的任何结果、设计、硬件、软件产品或任何其他应用程序的认可。此外,政府机构对原始软件中存在的第三方软件不承担任何保证和责任,并按“原样”分发。
弃权与赔偿
接收方同意放弃对美国政府、其承包商和分包商以及任何先前接收方的任何和所有索赔。如果接收方使用本软件导致任何责任、索赔、损害、费用或损失,包括因接收方使用本软件而产生的产品造成的任何损害,接收方应在法律允许的范围内赔偿并使美国政府、其承包商和分包商以及任何先前接收方免受损害。接收方对此类事项的唯一补救措施应为立即单方面终止本协议。