M

Mmlw Retrieval Roberta Large V2

由sdadas開發
MMLW是用於波蘭語的神經文本編碼器,針對信息檢索任務進行了優化,能夠將查詢和段落轉換為1024維向量。
下載量 2,091
發布時間 : 3/23/2025

模型概述

該模型基於polish-roberta-large-v2,通過多語言知識蒸餾和對比損失微調,融入了現代基於大語言模型的英語檢索器和重排器,提升了效果。

模型特點

多語言知識蒸餾
使用stella_en_1.5B_v5作為教師模型進行知識蒸餾,提升了模型性能。
對比損失微調
使用超過400萬個查詢的數據集,通過對比損失進行微調,優化了信息檢索效果。
高維向量表示
能夠將查詢和段落轉換為1024維向量,適用於信息檢索任務。

模型能力

信息檢索
語義文本相似度計算

使用案例

信息檢索
波蘭語文檔檢索
將用戶查詢與文檔庫中的段落進行匹配,返回最相關的文檔。
在波蘭語信息檢索基準測試中實現了60.71的NDCG@10。
語義相似度
波蘭語句子相似度計算
計算兩個波蘭語句子之間的語義相似度。
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase