gte-reranker-modernbert-base开源英语文本重排序模型

首页

Gte Reranker Modernbert Base

由 Alibaba-NLP 开发

基于ModernBERT预训练架构的英语文本重排序模型，由阿里巴巴通义实验室开发，支持8192 tokens长文本处理。

文本嵌入

Transformers

英语开源协议:Apache-2.0 #长文本重排序 #高精度检索 #多任务评估

下载量 17.69k

发布时间 : 1/20/2025

模型简介

该模型是专为文本重排序任务设计的神经网络模型，能够对文本对进行相关性评分，优化检索系统的排序效果。

模型特点

长文本处理能力

支持最大8192 tokens的输入长度，适合处理长文档检索任务

高效注意力机制

可选支持Flash Attention 2加速计算，提升推理效率

多任务优化

在MTEB、LoCO和COIR等多个基准测试中表现优异

模型能力

文本相关性评分

检索结果重排序

长文档处理

使用案例

信息检索

文档检索系统优化

对初步检索结果进行重排序，提升相关文档的排名

在LoCO长文档检索基准中综合得分90.68

问答系统

评估问题与候选答案的相关性

在COIR代码检索基准中多项子任务超96分

代码检索

代码搜索

匹配查询与代码片段的相关性

在COIR基准中部分子任务超98分

🚀 gte-reranker-modernbert-base

我们很高兴推出 gte-modernbert 系列模型，该系列模型基于最新的 modernBERT 仅编码器预训练基础模型构建。gte-modernbert 系列模型包括文本嵌入模型和重排模型。

与当前开源社区中规模相近的模型相比，gte-modernbert 模型在多个文本嵌入和文本检索评估任务中表现出了具有竞争力的性能，这些评估包括 MTEB、LoCO 和 COIR 评估。

🚀 快速开始

本项目提供了 gte-reranker-modernbert-base 模型的使用方法，你可以根据自己的需求选择不同的库进行调用。

✨ 主要特性

性能优异：在多个文本嵌入和文本检索评估任务中表现出了具有竞争力的性能。
支持多库：支持 transformers、sentence-transformers 和 transformers.js 等库。
长输入支持：最大输入长度可达 8192 个标记。

📦 安装指南

安装 `flash_attn`（可选）

如果你使用 transformers 和 sentence-transformers，并且你的 GPU 支持，在安装了 flash_attn 后，将自动使用高效的 Flash Attention 2。这不是必需的。

pip install flash_attn

安装 `sentence-transformers`

pip install sentence-transformers

💻 使用示例

基础用法

使用 `transformers` 库

# Requires transformers>=4.48.0
import torch
from transformers import AutoModelForSequenceClassification, AutoTokenizer

model_name_or_path = "Alibaba-NLP/gte-reranker-modernbert-base"
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModelForSequenceClassification.from_pretrained(
    model_name_or_path,
    torch_dtype=torch.float16,
)
model.eval()

pairs = [
    ["what is the capital of China?", "Beijing"],
    ["how to implement quick sort in python?", "Introduction of quick sort"],
    ["how to implement quick sort in python?", "The weather is nice today"],
]

with torch.no_grad():
    inputs = tokenizer(pairs, padding=True, truncation=True, return_tensors='pt', max_length=512)
    scores = model(**inputs, return_dict=True).logits.view(-1, ).float()
    print(scores)

# tensor([ 2.1387,  2.4609, -1.6729])

使用 `sentence-transformers` 库

# Requires transformers>=4.48.0
from sentence_transformers import CrossEncoder

model = CrossEncoder(
    "Alibaba-NLP/gte-reranker-modernbert-base",
    automodel_args={"torch_dtype": "auto"},
)

pairs = [
    ["what is the capital of China?", "Beijing"],
    ["how to implement quick sort in python?","Introduction of quick sort"],
    ["how to implement quick sort in python?", "The weather is nice today"],
]

scores = model.predict(pairs)
print(scores)
# [0.8945664  0.9213594  0.15742092]
# NOTE: Sentence Transformers calls Softmax over the outputs by default, hence the scores are in [0, 1] range.

使用 `transformers.js` 库

import {
  AutoTokenizer,
  AutoModelForSequenceClassification,
} from "@huggingface/transformers";

const model_id = "Alibaba-NLP/gte-reranker-modernbert-base";
const model = await AutoModelForSequenceClassification.from_pretrained(
  model_id,
  { dtype: "fp32" }, // Supported options: "fp32", "fp16", "q8", "q4", "q4f16"
);
const tokenizer = await AutoTokenizer.from_pretrained(model_id);

const pairs = [
  ["what is the capital of China?", "Beijing"],
  ["how to implement quick sort in python?", "Introduction of quick sort"],
  ["how to implement quick sort in python?", "The weather is nice today"],
];
const inputs = tokenizer(
  pairs.map((x) => x[0]),
  {
    text_pair: pairs.map((x) => x[1]),
    padding: true,
    truncation: true,
  },
);
const { logits } = await model(inputs);
console.log(logits.tolist()); // [[2.138258218765259], [2.4609625339508057], [-1.6775450706481934]]

📚 详细文档

模型概述

开发者：阿里巴巴集团通义实验室
模型类型：文本重排器
主要语言：英语
模型大小：149M
最大输入长度：8192 个标记

模型列表

模型	语言	模型类型	模型大小	最大序列长度	维度	MTEB-en	BEIR	LoCo	CoIR
gte-modernbert-base	英语	文本嵌入	149M	8192	768	64.38	55.33	87.57	79.31
gte-reranker-modernbert-base	英语	文本重排器	149M	8192	-	-	56.19	90.68	79.99

训练详情

gte-modernbert 系列模型遵循之前 GTE 模型的训练方案，唯一的区别是预训练语言模型基础从 GTE-MLM 替换为 ModernBert。有关更多训练详情，请参考我们的论文：mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval

评估

MTEB

其他模型的结果取自 MTEB 排行榜。由于 gte-modernbert 系列的所有模型参数都小于 1B，我们仅关注 MTEB 排行榜中参数小于 1B 的模型结果。

模型名称	参数大小 (M)	维度	序列长度	平均 (56)	分类 (12)	聚类 (11)	成对分类 (3)	重排 (4)	检索 (15)	STS (10)	摘要 (1)
mxbai-embed-large-v1	335	1024	512	64.68	75.64	46.71	87.2	60.11	54.39	85	32.71
multilingual-e5-large-instruct	560	1024	514	64.41	77.56	47.1	86.19	58.58	52.47	84.78	30.39
bge-large-en-v1.5	335	1024	512	64.23	75.97	46.08	87.12	60.03	54.29	83.11	31.61
gte-base-en-v1.5	137	768	8192	64.11	77.17	46.82	85.33	57.66	54.09	81.97	31.17
bge-base-en-v1.5	109	768	512	63.55	75.53	45.77	86.55	58.86	53.25	82.4	31.07
gte-large-en-v1.5	409	1024	8192	65.39	77.75	47.95	84.63	58.50	57.91	81.43	30.91
modernbert-embed-base	149	768	8192	62.62	74.31	44.98	83.96	56.42	52.89	81.78	31.39
nomic-embed-text-v1.5	-	768	8192	62.28	73.55	43.93	84.61	55.78	53.01	81.94	30.4
gte-multilingual-base	305	768	8192	61.4	70.89	44.31	84.24	57.47	51.08	82.11	30.58
jina-embeddings-v3	572	1024	8192	65.51	82.58	45.21	84.01	58.13	53.88	85.81	29.71
gte-modernbert-base	149	768	8192	64.38	76.99	46.47	85.93	59.24	55.33	81.57	30.68

LoCo（长文档检索）

模型名称	维度	序列长度	平均 (5)	QsmsumRetrieval	SummScreenRetrieval	QasperAbastractRetrieval	QasperTitleRetrieval	GovReportRetrieval
gte-qwen1.5-7b	4096	32768	87.57	49.37	93.10	99.67	97.54	98.21
gte-large-v1.5	1024	8192	86.71	44.55	92.61	99.82	97.81	98.74
gte-base-v1.5	768	8192	87.44	49.91	91.78	99.82	97.13	98.58
gte-modernbert-base	768	8192	88.88	54.45	93.00	99.82	98.03	98.70
gte-reranker-modernbert-base	-	8192	90.68	70.86	94.06	99.73	99.11	89.67

COIR（代码检索任务）

模型名称	维度	序列长度	平均 (20)	CodeSearchNet-ccr-go	CodeSearchNet-ccr-java	CodeSearchNet-ccr-javascript	CodeSearchNet-ccr-php	CodeSearchNet-ccr-python	CodeSearchNet-ccr-ruby	CodeSearchNet-go	CodeSearchNet-java	CodeSearchNet-javascript	CodeSearchNet-php	CodeSearchNet-python	CodeSearchNet-ruby	apps	codefeedback-mt	codefeedback-st	codetrans-contest	codetrans-dl	cosqa	stackoverflow-qa	synthetic-text2sql
gte-modernbert-base	768	8192	79.31	94.15	93.57	94.27	91.51	93.93	90.63	88.32	83.27	76.05	85.12	88.16	77.59	57.54	82.34	85.95	71.89	35.46	43.47	91.2	61.87
gte-reranker-modernbert-base	-	8192	79.99	96.43	96.88	98.32	91.81	97.7	91.96	88.81	79.71	76.27	89.39	98.37	84.11	47.57	83.37	88.91	49.66	36.36	44.37	89.58	64.21

BEIR

模型名称	维度	序列长度	平均 (15)	ArguAna	ClimateFEVER	CQADupstackAndroidRetrieval	DBPedia	FEVER	FiQA2018	HotpotQA	MSMARCO	NFCorpus	NQ	QuoraRetrieval	SCIDOCS	SciFact	Touche2020	TRECCOVID
gte-modernbert-base	768	8192	55.33	72.68	37.74	42.63	41.79	91.03	48.81	69.47	40.9	36.44	57.62	88.55	21.29	77.4	21.68	81.95
gte-reranker-modernbert-base	-	8192	56.73	69.03	37.79	44.68	47.23	94.54	49.81	78.16	45.38	30.69	64.57	87.77	20.60	73.57	27.36	79.89

招聘信息

我们的通义实验室团队正在招聘 研究实习生 和 全职研究员。我们正在寻找在表征学习、大语言模型驱动的信息检索、检索增强生成（RAG）和基于代理的系统方面有专业知识的热情人士。我们的团队位于充满活力的北京和杭州两座城市。如果你充满好奇心，并渴望通过工作产生有意义的影响，我们很乐意收到你的来信。请将简历和简短的自我介绍发送至 dingkun.ldk@alibaba-inc.com。

引用信息

如果你发现我们的论文或模型有帮助，请随意引用我们。

@inproceedings{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
  author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
  booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
  pages={1393--1412},
  year={2024}
}

@article{li2023towards,
  title={Towards general text embeddings with multi-stage contrastive learning},
  author={Li, Zehan and Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Pengjun and Zhang, Meishan},
  journal={arXiv preprint arXiv:2308.03281},
  year={2023}
}