D

Dense Encoder Msmarco Distilbert Word2vec256k Emb Updated

Developed by vocab-transformers
基於DistilBERT架構的句子嵌入模型,使用256k詞表和word2vec初始化,在MS MARCO數據集上訓練,適用於句子相似度計算和語義搜索任務。
Downloads 31
Release Time : 3/2/2022

Model Overview

該模型是一個句子嵌入模型,可將文本轉換為768維稠密向量,主要用於句子相似度計算、語義搜索和信息檢索等任務。

Model Features

word2vec初始化
使用256k大小的詞表並通過word2vec進行初始化,提升了詞嵌入質量
高效架構
基於DistilBERT架構,在保持性能的同時減少了模型大小
專業訓練
在MS MARCO數據集上使用MarginMSELoss進行專門訓練,優化了檢索任務表現

Model Capabilities

句子嵌入生成
語義相似度計算
信息檢索
文本聚類

Use Cases

信息檢索
文檔檢索系統
構建基於語義相似度的文檔檢索系統
在MS MARCO數據集上MRR@10達到34.51
問答系統
問答匹配
用於問答系統中問題和答案的匹配
AIbase
Empowering the Future, Your AI Solution Knowledge Base
© 2025AIbase