O

Opensearch Neural Sparse Encoding Doc V2 Distill

由 opensearch-project 开发
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
下载量 1.8M
发布时间 : 7/17/2024

模型简介

该模型将文档编码为30522维稀疏向量,通过查询/文档稀疏向量的内积计算相似度得分,适用于高效检索场景

模型特点

免推理文档编码
支持直接对文档进行编码而无需实时推理,显著提升检索效率
蒸馏优化
通过知识蒸馏技术压缩模型规模,保持性能的同时减少计算资源消耗
高效稀疏检索
利用稀疏向量表示和Lucene倒排索引实现高效相似度计算
多数据集训练
融合MS MARCO、问答对等多种训练数据,提升泛化能力

模型能力

文档向量化编码
查询稀疏向量生成
语义相似度计算
高效检索

使用案例

搜索引擎
OpenSearch神经搜索
作为OpenSearch的神经搜索插件,提供基于语义的文档检索能力
在BEIR基准测试中平均NDCG@10达到0.504
问答系统
问答对检索
从知识库中快速检索与用户问题相关的答案
在NQ数据集上NDCG@10达到0.528
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase