D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 785k Emb Updated

由vocab-transformers開發
基於word2vec初始化詞彙表的DistilBERT模型,專為句子相似度任務優化,在MS MARCO數據集上訓練
下載量 33
發布時間 : 3/2/2022

模型概述

該模型使用word2vec初始化的256k詞彙表,經過785k步MLM預訓練,並在MS MARCO數據集上使用MarginMSELoss進行微調,適用於句子嵌入和語義搜索任務

模型特點

大規模詞彙表
使用word2vec初始化的256k詞彙表,覆蓋更廣的語義範圍
高效訓練
基於DistilBERT架構,在保持性能的同時減少計算資源需求
優化損失函數
使用MarginMSELoss進行訓練,優化句子相似度任務表現

模型能力

句子嵌入生成
語義相似度計算
文本聚類
信息檢索

使用案例

信息檢索
文檔搜索
將查詢和文檔轉換為向量進行相似度匹配
在MS MARCO開發集上MRR@10達到35.20
問答系統
問題匹配
識別語義相似的問題對
在TREC-DL 2019/2020上nDCG@10分別達到67.61和69.62
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase