D

Dense Encoder Msmarco Distilbert Word2vec256k

由vocab-transformers開發
基於msmarco-word2vec256000-distilbert-base-uncased的句子編碼器,使用word2vec初始化的256k詞彙表,專為句子相似度任務設計
下載量 38
發布時間 : 3/2/2022

模型概述

該模型是一個句子轉換器,主要用於特徵提取和句子相似度計算。它在MS MARCO數據集上使用MarginMSELoss進行訓練,適用於信息檢索等場景。

模型特點

word2vec初始化詞彙表
使用word2vec初始化的256k大小詞彙表,可能提供更好的詞向量表示
凍結詞嵌入訓練
訓練過程中詞嵌入矩陣被凍結,保持預訓練詞向量的特性
MarginMSELoss訓練
採用MarginMSELoss進行訓練,優化句子對之間的相似度關係

模型能力

句子特徵提取
計算句子相似度
信息檢索

使用案例

信息檢索
文檔檢索
可用於構建搜索引擎,根據查詢與文檔的語義相似度返回相關結果
問答系統
可用於匹配用戶問題與知識庫中的候選答案
語義匹配
重複問題檢測
識別不同表述但語義相似的問題
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase