D

Dense Encoder Msmarco Distilbert Word2vec256k MLM 210k Emb Updated

由vocab-transformers開發
基於word2vec初始化的256k詞表規模DistilBERT模型,專為句子相似度和信息檢索任務優化
下載量 23
發布時間 : 3/2/2022

模型概述

該模型採用word2vec初始化的擴展詞表,通過MS MARCO數據集訓練,適用於句子嵌入生成和語義相似度計算

模型特點

擴展詞表
使用word2vec初始化的256k詞表規模,相比標準BERT模型有更強的詞彙覆蓋能力
高效訓練
基於DistilBERT架構,在保持性能的同時減少模型複雜度
專業優化
使用MarginMSELoss在MS MARCO數據集上專門針對信息檢索任務進行優化

模型能力

句子嵌入生成
語義相似度計算
信息檢索
文檔匹配

使用案例

信息檢索
搜索引擎優化
用於改進搜索引擎的文檔相關性排序
在MS MARCO開發集上MRR@10達到34.91
問答系統
匹配用戶問題與知識庫中的候選答案
在TREC-DL 2019/2020上nDCG@10分別達到67.56和68.18
語義分析
文檔去重
識別語義相似的文檔
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase