gte-multilingual-base开源多语言句子嵌入模型 - 免费部署支持超50种语言相似度计算

首页

Gte Multilingual Base

由 Alibaba-NLP 开发

GTE Multilingual Base 是一个多语言的句子嵌入模型，支持超过50种语言，适用于句子相似度计算等任务。

文本嵌入

Transformers

支持多种语言开源协议:Apache-2.0 #多语言句子相似度 #密集向量检索 #跨语言文本匹配

下载量 1.2M

发布时间 : 7/20/2024

模型简介

该模型是一个基于Transformer架构的多语言句子嵌入模型，能够将不同语言的句子映射到统一的向量空间，便于跨语言句子相似度计算和信息检索。

模型特点

多语言支持

支持超过50种语言的句子嵌入，实现跨语言语义理解

多功能任务适配

适用于句子相似度、聚类、分类、检索等多种自然语言处理任务

高性能表现

在多个基准测试中展现出优秀的性能指标

模型能力

句子相似度计算

文本聚类

文本分类

信息检索

文本重排序

双语文本挖掘

使用案例

信息检索

跨语言文档检索

在不同语言的文档集合中检索相关文档

在AlloprofRetrieval测试中NDCG@10达到53.638

文本分类

产品评论分类

对多语言产品评论进行情感分类

在AmazonPolarityClassification中准确率达到80.72%

句子相似度

跨语言句子匹配

计算不同语言句子之间的语义相似度

在BIOSSES测试中Spearman相关系数达到81.21

🚀 gte-multilingual-base

gte-multilingual-base 模型是 GTE（通用文本嵌入）系列模型中的最新成员，具有以下关键特性：

高性能：在多语言检索任务和多任务表示模型评估中，与同规模的模型相比，达到了当前最优（SOTA）的效果。
训练架构：采用仅编码器的 Transformer 架构进行训练，模型规模更小。与之前基于仅解码器的大语言模型（LLM）架构的模型（如 gte-qwen2-1.5b-instruct）不同，该模型推理时对硬件的要求更低，推理速度提升了 10 倍。
长上下文支持：支持最长达 8192 个标记的文本。
多语言能力：支持超过 70 种语言。
弹性密集嵌入：在保持下游任务有效性的同时，支持弹性输出密集表示，显著降低了存储成本，提高了执行效率。
稀疏向量生成：除了密集表示外，还可以生成稀疏向量。

🚀 快速开始

模型信息

属性	详情
模型规模	3.05 亿参数
嵌入维度	768
最大输入标记数	8192

使用说明

建议安装 xformers 并启用解填充以加速推理，请参考 enable-unpadding-and-xformers。
离线使用方法：new-impl/discussions/2
与 TEI 一起使用的方法：refs/pr/7

代码示例

💻 使用 Transformers 获取密集嵌入

# Requires transformers>=4.36.0

import torch.nn.functional as F
from transformers import AutoModel, AutoTokenizer

input_texts = [
    "what is the capital of China?",
    "how to implement quick sort in python?",
    "北京",
    "快排算法介绍"
]

model_name_or_path = 'Alibaba-NLP/gte-multilingual-base'
tokenizer = AutoTokenizer.from_pretrained(model_name_or_path)
model = AutoModel.from_pretrained(model_name_or_path, trust_remote_code=True)

# Tokenize the input texts
batch_dict = tokenizer(input_texts, max_length=8192, padding=True, truncation=True, return_tensors='pt')

outputs = model(**batch_dict)

dimension=768 # The output dimension of the output embedding, should be in [128, 768]
embeddings = outputs.last_hidden_state[:, 0][:dimension]

embeddings = F.normalize(embeddings, p=2, dim=1)
scores = (embeddings[:1] @ embeddings[1:].T) * 100
print(scores.tolist())

# [[0.3016996383666992, 0.7503870129585266, 0.3203084468841553]]

使用 sentence-transformers

# Requires sentence-transformers>=3.0.0

from sentence_transformers import SentenceTransformer

input_texts = [
    "what is the capital of China?",
    "how to implement quick sort in python?",
    "北京",
    "快排算法介绍"
]

model_name_or_path="Alibaba-NLP/gte-multilingual-base"
model = SentenceTransformer(model_name_or_path, trust_remote_code=True)
embeddings = model.encode(input_texts, normalize_embeddings=True) # embeddings.shape (4, 768)

# sim scores
scores = model.similarity(embeddings[:1], embeddings[1:])

print(scores.tolist())
# [[0.301699697971344, 0.7503870129585266, 0.32030850648880005]]

使用 infinity

通过 Docker 和 infinity 使用，该项目采用 MIT 许可证。

docker run --gpus all -v $PWD/data:/app/.cache -p "7997":"7997" \
michaelf34/infinity:0.0.69 \
v2 --model-id Alibaba-NLP/gte-multilingual-base --revision "main" --dtype float16 --batch-size 32 --device cuda --engine torch --port 7997

使用自定义代码获取密集嵌入和稀疏标记权重

# You can find the script gte_embedding.py in https://huggingface.co/Alibaba-NLP/gte-multilingual-base/blob/main/scripts/gte_embedding.py

from gte_embedding import GTEEmbeddidng

model_name_or_path = 'Alibaba-NLP/gte-multilingual-base'
model = GTEEmbeddidng(model_name_or_path)
query = "中国的首都在哪儿"

docs = [
    "what is the capital of China?",
    "how to implement quick sort in python?",
    "北京",
    "快排算法介绍"
]

embs = model.encode(docs, return_dense=True,return_sparse=True)
print('dense_embeddings vecs', embs['dense_embeddings'])
print('token_weights', embs['token_weights'])
pairs = [(query, doc) for doc in docs]
dense_scores = model.compute_scores(pairs, dense_weight=1.0, sparse_weight=0.0)
sparse_scores = model.compute_scores(pairs, dense_weight=0.0, sparse_weight=1.0)
hybrid_scores = model.compute_scores(pairs, dense_weight=1.0, sparse_weight=0.3)

print('dense_scores', dense_scores)
print('sparse_scores', sparse_scores)
print('hybrid_scores', hybrid_scores)

# dense_scores [0.85302734375, 0.257568359375, 0.76953125, 0.325439453125]
# sparse_scores [0.0, 0.0, 4.600879669189453, 1.570279598236084]
# hybrid_scores [0.85302734375, 0.257568359375, 2.1497951507568356, 0.7965233325958252]

📚 详细文档

评估

我们在多个下游任务中验证了 gte-multilingual-base 模型的性能，包括多语言检索、跨语言检索、长文本检索，以及在 MTEB 排行榜上进行的通用文本表示评估等。

检索任务

在 MIRACL 和 MLDR（多语言）、MKQA（跨语言）、BEIR 和 LoCo（英语）上的检索结果。

MLDR 上的详细结果

LoCo 上的详细结果

MTEB 评估

在 MTEB 英语、中文、法语、波兰语任务上的结果。

更多详细的实验结果可在论文中查看。

云 API 服务

除了开源的 GTE 系列模型外，GTE 系列模型还在阿里云上提供商业 API 服务。

嵌入模型：提供三种版本的文本嵌入模型：text-embedding-v1/v2/v3，其中 v3 是最新的 API 服务。
重排序模型：提供 gte-rerank 模型服务。

请注意，商业 API 背后的模型与开源模型并不完全相同。

🔧 技术细节

引用

如果您觉得我们的论文或模型有帮助，请考虑引用：

@inproceedings{zhang2024mgte,
  title={mGTE: Generalized Long-Context Text Representation and Reranking Models for Multilingual Text Retrieval},
  author={Zhang, Xin and Zhang, Yanzhao and Long, Dingkun and Xie, Wen and Dai, Ziqi and Tang, Jialong and Lin, Huan and Yang, Baosong and Xie, Pengjun and Huang, Fei and others},
  booktitle={Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing: Industry Track},
  pages={1393--1412},
  year={2024}
}