D

Dense Encoder Msmarco Distilbert Word2vec256k Emb Updated

由vocab-transformers開發
基於DistilBERT架構的句子嵌入模型,使用256k詞表和word2vec初始化,在MS MARCO數據集上訓練,適用於句子相似度計算和語義搜索任務。
下載量 31
發布時間 : 3/2/2022

模型概述

該模型是一個句子嵌入模型,可將文本轉換為768維稠密向量,主要用於句子相似度計算、語義搜索和信息檢索等任務。

模型特點

word2vec初始化
使用256k大小的詞表並通過word2vec進行初始化,提升了詞嵌入質量
高效架構
基於DistilBERT架構,在保持性能的同時減少了模型大小
專業訓練
在MS MARCO數據集上使用MarginMSELoss進行專門訓練,優化了檢索任務表現

模型能力

句子嵌入生成
語義相似度計算
信息檢索
文本聚類

使用案例

信息檢索
文檔檢索系統
構建基於語義相似度的文檔檢索系統
在MS MARCO數據集上MRR@10達到34.51
問答系統
問答匹配
用於問答系統中問題和答案的匹配
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase