M

Mmlw Retrieval E5 Small

由sdadas開發
MMLW(我必須得到更好的消息)是波蘭語的神經文本編碼器,針對信息檢索任務進行了優化,可將查詢和段落轉換為384維向量。
下載量 34
發布時間 : 10/18/2023

模型概述

該模型是一個波蘭語的句子轉換器,主要用於特徵提取和句子相似度計算,特別適用於信息檢索任務。

模型特點

多語言知識蒸餾
使用6000萬條波蘭語-英語文本對進行訓練,以英語FlagEmbeddings作為教師模型進行知識蒸餾。
對比損失微調
在波蘭版MS MARCO訓練集上通過對比損失進行微調,採用大批量尺寸優化訓練效率。
前綴增強
編碼文本時需添加特定前綴(查詢前加'query: ',段落前加'passage: ')以優化檢索效果。

模型能力

文本編碼
句子相似度計算
信息檢索

使用案例

信息檢索
問答系統
用於匹配用戶查詢與相關答案段落
能有效識別語義相關的問答對
文檔檢索
從大量文檔中檢索相關內容
在波蘭信息檢索基準測試中達到NDCG@10分數52.34
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase