🚀 智能知識訪問管理器 (MIKA)
這是一個定製的信息檢索模型,基於 sentence-transformers 構建。它能將句子和段落映射到 768 維的密集向量空間,可用於聚類或語義搜索等任務。該模型在工程文檔上進行了定製訓練,適用於非對稱信息檢索,能在設計階段識別與查詢相關的工程文檔。
🚀 快速開始
安裝依賴
若你已安裝 sentence-transformers,使用此模型將十分便捷。首先,執行以下命令安裝:
pip install -U sentence-transformers
使用示例
基礎用法
安裝完成後,你可以按如下方式使用該模型:
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("NASA-AIML/MIKA_Custom_IR")
embeddings = model.encode(sentences)
print(embeddings)
✨ 主要特性
- 定製訓練:在工程文檔上進行定製訓練,適用於非對稱信息檢索。
- 高效映射:將句子和段落映射到 768 維的密集向量空間。
- 多任務支持:可用於聚類、語義搜索等任務。
📦 安裝指南
使用該模型前,需安裝 sentence-transformers:
pip install -U sentence-transformers
💻 使用示例
基礎用法
from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]
model = SentenceTransformer("NASA-AIML/MIKA_Custom_IR")
embeddings = model.encode(sentences)
print(embeddings)
📚 詳細文檔
評估結果
該模型使用 k=10、20 和 30 時的精確率進行了評估,並計算了平均精度均值 (MAP),同時與預訓練的 SBERT 進行了對比。
信息檢索方法 |
平均精度均值 (MAP) |
預訓練的 sBERT |
0.648 |
微調後的 sBERT |
0.807 |
訓練參數
數據加載器
sentence_transformers.datasets.NoDuplicatesDataLoader.NoDuplicatesDataLoader
,長度為 693,參數如下:
{'batch_size': 32}
損失函數
sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss
,參數如下:
{'scale': 20.0, 'similarity_fct': 'cos_sim'}
訓練方法參數
{
"epochs": 2,
"evaluation_steps": 100,
"evaluator": "sentence_transformers.evaluation.InformationRetrievalEvaluator.InformationRetrievalEvaluator",
"max_grad_norm": 1,
"optimizer_class": "<class 'transformers.optimization.AdamW'>",
"optimizer_params": {
"lr": 2e-05
},
"scheduler": "WarmupLinear",
"steps_per_epoch": null,
"warmup_steps": 0,
"weight_decay": 0.01
}
完整模型架構
SentenceTransformer(
(0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: MPNetModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
(2): Normalize()
)
引用與作者
Walsh, HS, & Andrade, SR. "Semantic Search With Sentence-BERT for Design Information Retrieval." Proceedings of the ASME 2022 International Design Engineering Technical Conferences and Computers and Information in Engineering Conference. Volume 2: 42nd Computers and Information in Engineering Conference (CIE). St. Louis, Missouri, USA. August 14–17, 2022. V002T02A066. ASME. https://doi.org/10.1115/DETC2022-89557
版權聲明
版權所有 © 2023 美國政府,由美國國家航空航天局局長代表。保留所有權利。
免責聲明
本軟件按“原樣”提供,不提供任何形式的保證,無論是明示、暗示還是法定保證,包括但不限於本軟件符合規格的保證、適銷性的暗示保證、特定用途適用性的保證、不侵權的保證、本軟件無錯誤的保證,或如果提供文檔,文檔符合本軟件的保證。本協議不以任何方式構成政府機構或任何先前接收方對使用本軟件產生的任何結果、設計、硬件、軟件產品或任何其他應用程序的認可。此外,政府機構對原始軟件中存在的第三方軟件不承擔任何保證和責任,並按“原樣”分發。
棄權與賠償
接收方同意放棄對美國政府、其承包商和分包商以及任何先前接收方的任何和所有索賠。如果接收方使用本軟件導致任何責任、索賠、損害、費用或損失,包括因接收方使用本軟件而產生的產品造成的任何損害,接收方應在法律允許的範圍內賠償並使美國政府、其承包商和分包商以及任何先前接收方免受損害。接收方對此類事項的唯一補救措施應為立即單方面終止本協議。