M

Mmlw Retrieval Roberta Large

由sdadas開發
MMLW(我必須得到更好的消息)是波蘭語的神經文本編碼器,針對信息檢索任務進行了優化。
下載量 237.90k
發布時間 : 10/18/2023

模型概述

該模型可將查詢和段落轉換為1024維向量,主要用於波蘭語的信息檢索任務。採用兩步訓練流程:首先通過多語言知識蒸餾方法訓練,然後在波蘭版MS MARCO數據集上微調。

模型特點

多語言知識蒸餾
使用6000萬條波英雙語文本對和英文FlagEmbeddings作為教師模型進行訓練
對比損失微調
在波蘭版MS MARCO數據集上通過對比損失進行微調,採用大批量訓練策略
特定前綴處理
編碼文本時需添加特定前綴/後綴,查詢內容前必須添加'zapytanie:'前綴

模型能力

文本編碼
句子相似度計算
信息檢索

使用案例

信息檢索
問答系統
用於構建波蘭語問答系統,匹配問題與最相關的答案
能準確識別與查詢最相關的答案
文檔檢索
從大量波蘭語文檔中檢索與查詢最相關的文檔
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase