D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 445k Emb Updated

由vocab-transformers開發
基於MS MARCO數據集訓練的句子嵌入模型,使用word2vec初始化的256k詞彙表和DistilBERT架構,適用於語義搜索和句子相似度任務
下載量 29
發布時間 : 3/2/2022

模型概述

該模型是一個句子嵌入模型,能夠將句子和段落映射到768維稠密向量空間,適用於聚類、語義搜索等自然語言處理任務。

模型特點

word2vec初始化詞彙表
使用word2vec初始化的256k大小詞彙表,增強了詞嵌入質量
MS MARCO數據集訓練
在MS MARCO數據集上使用MarginMSELoss進行訓練,優化了語義搜索能力
高性能句子嵌入
在TREC-DL 2019和2020上分別達到66.72和69.14的nDCG@10分數

模型能力

句子嵌入
語義搜索
文本聚類
信息檢索

使用案例

信息檢索
文檔檢索系統
構建高效的文檔檢索系統,根據查詢語義匹配相關文檔
在MS MARCO開發集上達到34.94的MRR@10
問答系統
問題匹配
在問答系統中匹配相似問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase