开源monoelectra-large文本重排序模型 - 精准为检索结果做相关性排序

首页

Monoelectra Large

由 cross-encoder 开发

基于ELECTRA架构的文本重排序模型，用于检索结果的相关性排序

文本嵌入

Transformers

英语开源协议:Apache-2.0 #检索重排序 #ELECTRA架构 #两阶段检索

下载量 699

发布时间 : 3/31/2025

模型简介

该模型是专为文本重排序任务设计的交叉编码器，可将检索系统返回的文本段落按查询相关性重新排序。适用于两阶段检索系统中的重排序环节。

模型特点

高效的交叉编码架构

采用ELECTRA-large作为基础模型，在文本对相关性评分任务上表现优异

检索增强能力

专门优化用于两阶段检索系统中的重排序环节，可显著提升最终检索质量

易于集成

提供Sentence Transformers和原生Transformers两种使用方式，便于不同场景集成

模型能力

文本相关性评分

检索结果重排序

查询-段落匹配度评估

使用案例

信息检索

搜索引擎结果重排序

对搜索引擎初步返回的结果进行相关性重排序

提升前10结果的相关性准确率

问答系统答案排序

对候选答案段落进行相关性排序

提高最佳答案出现在顶部的概率

🚀 文本排序交叉编码器

本模型是将 webis/monoelectra-large 模型从 lightning-ir 迁移至 Sentence Transformers 和 Transformers 的版本。

原始模型在论文 A Systematic Investigation of Distilling Large Language Models into Cross-Encoders for Passage Re-ranking 中被提出。有关训练原始模型的代码，请参阅 https://github.com/webis-de/rank-distillm。

该模型可在两阶段的“检索 - 重排”管道中用作重排器，它会根据给定的查询对检索器模型（例如嵌入模型或 BM25）返回的段落进行重新排序。更多详细信息请参阅 SBERT.net 检索与重排。

🚀 快速开始

本模型可作为两阶段“检索 - 重排”管道中的重排器，依据查询对检索器模型返回的段落重新排序。

✨ 主要特性

是 webis/monoelectra-large 模型向 Sentence Transformers 和 Transformers 的迁移版本。
可用于文本排序，在两阶段“检索 - 重排”管道中发挥重排作用。

📦 安装指南

若要使用该模型，需要安装 SentenceTransformers，可使用以下命令进行安装：

pip install sentence-transformers

💻 使用示例

基础用法

使用 Sentence Transformers

from sentence_transformers import CrossEncoder

model = CrossEncoder("cross-encoder/monoelectra-large", trust_remote_code=True)
scores = model.predict([
    ("How many people live in Berlin?", "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers."),
    ("How many people live in Berlin?", "Berlin is well known for its museums."),
])
print(scores)
# [ 6.016401  -3.6922567]

使用 Transformers

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

model = AutoModelForSequenceClassification.from_pretrained("cross-encoder/monoelectra-large", trust_remote_code=True)
tokenizer = AutoTokenizer.from_pretrained("cross-encoder/monoelectra-large")

features = tokenizer(
    [
        ("How many people live in Berlin?", "Berlin had a population of 3,520,031 registered inhabitants in an area of 891.82 square kilometers."),
        ("How many people live in Berlin?", "Berlin is well known for its museums."),
    ],
    padding=True,
    truncation=True,
    return_tensors="pt",
)

model.eval()
with torch.no_grad():
    scores = model(**features).logits.view(-1)
print(scores)
# tensor([ 6.0164, -3.6923])