M

Mmlw Retrieval Roberta Base

由sdadas開發
MMLW(我必須得到更好的消息)是波蘭語的神經文本編碼器,針對信息檢索任務進行了優化,能夠將查詢和段落轉換為768維向量。
下載量 408
發布時間 : 10/18/2023

模型概述

該模型是一個波蘭語的句子轉換器,主要用於特徵提取和句子相似度計算,特別適用於信息檢索任務。

模型特點

多語言知識蒸餾
通過多語言知識蒸餾方法在6000萬波蘭語-英語文本對上訓練,使用英語FlagEmbeddings(BGE)作為教師模型。
對比損失微調
在波蘭MS MARCO訓練集上使用對比損失進行微調,採用大批量尺寸提高訓練效率。
特定前綴要求
編碼文本時需要使用特定前綴和後綴,查詢需以'查詢: '前綴開頭。

模型能力

文本編碼
句子相似度計算
信息檢索

使用案例

信息檢索
健康信息檢索
根據健康相關查詢檢索最相關的答案
能夠準確匹配健康飲食建議
政治信息檢索
檢索與政治承諾相關的信息
可識別政治相關文本
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase