M

Mmlw Retrieval Roberta Large V2

由 sdadas 开发
MMLW是用于波兰语的神经文本编码器,针对信息检索任务进行了优化,能够将查询和段落转换为1024维向量。
下载量 2,091
发布时间 : 3/23/2025

模型简介

该模型基于polish-roberta-large-v2,通过多语言知识蒸馏和对比损失微调,融入了现代基于大语言模型的英语检索器和重排器,提升了效果。

模型特点

多语言知识蒸馏
使用stella_en_1.5B_v5作为教师模型进行知识蒸馏,提升了模型性能。
对比损失微调
使用超过400万个查询的数据集,通过对比损失进行微调,优化了信息检索效果。
高维向量表示
能够将查询和段落转换为1024维向量,适用于信息检索任务。

模型能力

信息检索
语义文本相似度计算

使用案例

信息检索
波兰语文档检索
将用户查询与文档库中的段落进行匹配,返回最相关的文档。
在波兰语信息检索基准测试中实现了60.71的NDCG@10。
语义相似度
波兰语句子相似度计算
计算两个波兰语句子之间的语义相似度。
AIbase
智启未来,您的人工智能解决方案智库
© 2025AIbase