O

Opensearch Neural Sparse Encoding Doc V2 Distill

由opensearch-project開發
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
下載量 1.8M
發布時間 : 7/17/2024

模型概述

該模型將文檔編碼為30522維稀疏向量,通過查詢/文檔稀疏向量的內積計算相似度得分,適用於高效檢索場景

模型特點

免推理文檔編碼
支持直接對文檔進行編碼而無需即時推理,顯著提升檢索效率
蒸餾優化
通過知識蒸餾技術壓縮模型規模,保持性能的同時減少計算資源消耗
高效稀疏檢索
利用稀疏向量表示和Lucene倒排索引實現高效相似度計算
多數據集訓練
融合MS MARCO、問答對等多種訓練數據,提升泛化能力

模型能力

文檔向量化編碼
查詢稀疏向量生成
語義相似度計算
高效檢索

使用案例

搜索引擎
OpenSearch神經搜索
作為OpenSearch的神經搜索插件,提供基於語義的文檔檢索能力
在BEIR基準測試中平均NDCG@10達到0.504
問答系統
問答對檢索
從知識庫中快速檢索與用戶問題相關的答案
在NQ數據集上NDCG@10達到0.528
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase