M

Mmlw Retrieval E5 Large

由sdadas開發
MMLW是面向波蘭語的神經文本編碼器,針對信息檢索任務優化,可將查詢和段落轉換為1024維向量
下載量 56
發布時間 : 10/18/2023

模型概述

該模型通過多語言知識蒸餾和對比損失微調,專門用於波蘭語信息檢索任務,能將查詢和段落編碼為高維向量進行相似度計算

模型特點

多語言知識蒸餾
使用英語FlagEmbeddings作為教師模型,在6000萬條波蘭語-英語文本對上進行知識蒸餾訓練
對比損失微調
在波蘭版MS MARCO數據集上通過大批量對比學習進行微調,優化檢索性能
前綴感知編碼
通過添加'query:'和'passage:'前綴區分查詢和段落編碼,提升檢索準確性

模型能力

文本向量化
語義相似度計算
信息檢索
跨語言檢索

使用案例

搜索引擎
波蘭語文檔檢索
根據用戶查詢從波蘭語文檔庫中檢索最相關內容
在PIRB基準測試中達到NDCG@10值58.30
問答系統
波蘭語FAQ匹配
將用戶問題與常見問題庫進行語義匹配
AIbase
智啟未來,您的人工智能解決方案智庫
© 2025AIbase