GTE-base-en-v1.5英文句子转换器模型 - 开源免费精准处理句子相似度任务

首页

Gte Base En V1.5

由 Alibaba-NLP 开发

GTE-base-en-v1.5 是一个英文句子转换器模型，专注于句子相似度任务，在多个文本嵌入基准测试中表现优异。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #英文文本嵌入 #高精度相似度计算 #多任务评估优化

下载量 1.5M

发布时间 : 4/20/2024

模型简介

该模型是一个通用的英文文本嵌入模型，能够将句子转换为高维向量表示，用于计算句子相似度、信息检索和文本分类等任务。

模型特点

高性能句子嵌入

在多个MTEB基准测试中表现出色，特别是在句子相似度和分类任务上

多任务适应能力

能够处理多种文本相关任务，包括分类、聚类、检索和重排序

开源许可

采用Apache-2.0许可证，允许商业和研究使用

模型能力

句子相似度计算

文本分类

信息检索

文本聚类

语义搜索

句子嵌入生成

使用案例

电子商务

产品评论分类

对亚马逊产品评论进行情感分析

在MTEB AmazonPolarityClassification上达到93.02%准确率

反事实分析

识别亚马逊产品评论中的反事实陈述

在MTEB AmazonCounterfactualClassification上达到74.79%准确率

金融

银行客服分类

对银行客户查询进行分类

在MTEB Banking77Classification上达到86.73%准确率

学术研究

论文聚类

对arXiv和biorxiv论文进行主题聚类

在MTEB ArxivClusteringP2P上达到47.51 V-measure

🚀 gte-base-en-v1.5

我们推出了 gte-v1.5 系列，这是升级版的 gte 嵌入模型，支持最长达 8192 的上下文长度，同时进一步提升了模型性能。该模型基于 transformer++ 编码器骨干网络（BERT + RoPE + GLU）构建。

gte-v1.5 系列在 MTEB 基准测试中，于相同模型大小类别里取得了最先进的分数，并且在 LoCo 长上下文检索测试中表现出色（请参考评估）。

我们还推出了 gte-Qwen1.5-7B-instruct，这是一个最先进的指令调优多语言嵌入模型，在 MTEB 中排名第二，在 C - MTEB 中排名第一。

开发者：阿里巴巴集团智能计算研究所
模型类型：文本嵌入
论文：mGTE: Generalized Long - Context Text Representation and Reranking Models for Multilingual Text Retrieval

模型列表

模型	语言	模型大小	最大序列长度	维度	MTEB - en	LoCo
`gte-Qwen1.5-7B-instruct`	多语言	7720	32768	4096	67.34	87.57
`gte-large-en-v1.5`	英语	434	8192	1024	65.39	86.71
`gte-base-en-v1.5`	英语	137	8192	768	64.11	87.44

🚀 快速开始

使用 Python 和 `transformers` 库

使用以下代码开始使用该模型：

# 需要 transformers>=4.36.0

import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

input_texts = [
    "what is the capital of China?",
    "how to implement quick sort in python?",
    "Beijing",
    "sorting algorithms"
]

model_path = 'Alibaba-NLP/gte-base-en-v1.5'
tokenizer = AutoTokenizer.from_pretrained(model_path)
model = AutoModel.from_pretrained(model_path, trust_remote_code=True)

# 对输入文本进行分词
batch_dict = tokenizer(input_texts, max_length=8192, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)
embeddings = outputs.last_hidden_state[:, 0]

# （可选）对嵌入进行归一化
embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

⚠️ 重要提示

建议安装 xformers 并启用无填充（unpadding）以加速推理，详情请参考 enable - unpadding - and - xformers。

使用 `sentence-transformers` 库

# 需要 sentence_transformers>=2.7.0

from sentence_transformers import SentenceTransformer
from sentence_transformers.util import cos_sim

sentences = ['That is a happy person', 'That is a very happy person']

model = SentenceTransformer('Alibaba-NLP/gte-base-en-v1.5', trust_remote_code=True)
embeddings = model.encode(sentences)
print(cos_sim(embeddings[0], embeddings[1]))

使用 `transformers.js` 库

// npm i @xenova/transformers
import { pipeline, dot } from '@xenova/transformers';

// 创建特征提取管道
const extractor = await pipeline('feature-extraction', 'Alibaba-NLP/gte-base-en-v1.5', {
    quantized: false, // 注释掉这一行以使用量化版本
});

// 生成句子嵌入
const sentences = [
    "what is the capital of China?",
    "how to implement quick sort in python?",
    "Beijing",
    "sorting algorithms"
]
const output = await extractor(sentences, { normalize: true, pooling: 'cls' });

// 计算相似度分数
const [source_embeddings, ...document_embeddings ] = output.tolist();
const similarities = document_embeddings.map(x => 100 * dot(source_embeddings, x));
console.log(similarities); // [34.504930869007296, 64.03973265120138, 19.520042686034362]

使用 Infinity

Infinity 是一个遵循 MIT 许可的 OpenAI 兼容部署服务器。

docker run --gpus all -v $PWD/data:/app/.cache -p "7997":"7997" \
michaelf34/infinity:0.0.68 \
v2 --model-id Alibaba-NLP/gte-base-en-v1.5 --revision "4c742dc2b781e4ab062a4a77f4f7cbad4bdee970" --dtype bfloat16 --batch-size 32 --device cuda --engine torch --port 7997

📚 详细文档

训练数据

掩码语言模型（MLM）：c4-en
弱监督对比预训练（CPT）：GTE 预训练数据
监督对比微调：GTE 微调数据

训练过程

为了使骨干模型支持 8192 的上下文长度，我们采用了多阶段训练策略。模型首先在较短长度上进行初步的 MLM 预训练，然后重新采样数据，减少短文本的比例，并继续进行 MLM 预训练。

整个训练过程如下：

MLM - 2048：学习率 5e - 4，掩码概率 0.3，批次大小 4096，步数 70000，RoPE 基数 10000
MLM - 8192：学习率 5e - 5，掩码概率 0.3，批次大小 1024，步数 20000，RoPE 基数 500000
CPT：最大长度 512，学习率 2e - 4，批次大小 32768，步数 100000
微调：待完成

🔧 技术细节

MTEB 评估

其他模型的结果从 MTEB 排行榜获取。

gte 评估设置：mteb==1.2.0，FP16 自动混合精度，max_length = 8192，并将 NTK 缩放因子设置为 2（相当于 RoPE 基数 * 2）。

模型名称	参数大小（M）	维度	序列长度	平均值（56）	分类（12）	聚类（11）	成对分类（3）	重排（4）	检索（15）	STS（10）	摘要（1）
gte-large-en-v1.5	434	1024	8192	65.39	77.75	47.95	84.63	58.50	57.91	81.43	30.91
mxbai-embed-large-v1	335	1024	512	64.68	75.64	46.71	87.2	60.11	54.39	85	32.71
multilingual-e5-large-instruct	560	1024	514	64.41	77.56	47.1	86.19	58.58	52.47	84.78	30.39
bge-large-en-v1.5	335	1024	512	64.23	75.97	46.08	87.12	60.03	54.29	83.11	31.61
gte-base-en-v1.5	137	768	8192	64.11	77.17	46.82	85.33	57.66	54.09	81.97	31.17
bge-base-en-v1.5	109	768	512	63.55	75.53	45.77	86.55	58.86	53.25	82.4	31.07

LoCo 评估

模型名称	维度	序列长度	平均值（5）	Qsmsum 检索	SummScreen 检索	Qasper 摘要检索	Qasper 标题检索	GovReport 检索
gte-qwen1.5-7b	4096	32768	87.57	49.37	93.10	99.67	97.54	98.21
gte-large-v1.5	1024	8192	86.71	44.55	92.61	99.82	97.81	98.74
gte-base-v1.5	768	8192	87.44	49.91	91.78	99.82	97.13	98.58

📄 许可证

本项目遵循 Apache - 2.0 许可证。

📚 引用

如果您发现我们的论文或模型有帮助，请考虑以下引用：

@misc{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval}, 
  author={Xin Zhang and Yanzhao Zhang and Dingkun Long and Wen Xie and Ziqi Dai and Jialong Tang and Huan Lin and Baosong Yang and Pengjun Xie and Fei Huang and Meishan Zhang and Wenjie Li and Min Zhang},
  year={2024},
  eprint={2407.19669},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2407.19669}, 
}
@misc{li2023gte,
  title={Towards General Text Embeddings with Multi-stage Contrastive Learning}, 
  author={Zehan Li and Xin Zhang and Yanzhao Zhang and Dingkun Long and Pengjun Xie and Meishan Zhang},
  year={2023},
  eprint={2308.03281},
  archivePrefix={arXiv},
  primaryClass={cs.CL},
  url={https://arxiv.org/abs/2308.03281}, 
}