Qwen2.5-7B-embed-base开源文本嵌入模型 - 免费生成高质量文本向量

首页

Qwen2.5 7B Embed Base

由 ssmits 开发

Qwen2.5-7B-embed-base是基于Transformer架构的预训练语言模型，专为生成高质量文本嵌入向量而设计。

文本嵌入

Safetensors

英语开源协议:Apache-2.0 #多语言嵌入 #大模型微调适配 #高维语义编码

下载量 85

发布时间 : 11/24/2024

模型简介

该模型是Qwen2.5系列的一部分，移除了'lm_head'层，适用于生成文本嵌入向量，可用于文本相似度计算、信息检索等任务。

模型特点

改进的分词器

分词器能自适应多种自然语言和代码，提高处理效率

高效注意力机制

采用分组查询注意力等先进机制，优化计算效率

嵌入向量生成

专为生成高质量文本嵌入向量而优化，适合下游任务微调

模型能力

文本嵌入生成

文本相似度计算

语义搜索

使用案例

信息检索

文档相似度匹配

计算不同文档之间的语义相似度

可准确识别语义相似的文档对

推荐系统

内容推荐

基于用户历史行为和内容嵌入向量进行个性化推荐

🚀 Qwen2.5-7B-embed-base

Qwen2.5-7B-embed-base 是基于 Qwen2.5 语言模型系列的嵌入模型，可用于文本分类等任务，能将文本转换为向量表示，为后续的自然语言处理任务提供基础支持。

🚀 快速开始

安装依赖

Qwen2.5 的代码已集成在最新的 Hugging face transformers 中，建议安装 transformers>=4.37.0，否则可能会遇到以下错误：

KeyError: 'Qwen2.5'

模型推理

使用 sentence-transformers 库

from sentence_transformers import SentenceTransformer
import torch

# 1. 加载预训练的 Sentence Transformer 模型
model = SentenceTransformer("ssmits/Qwen2.5-7B-embed-base") # 当显存 <= 24 GB 时，可设置 device = "cpu"

# 待编码的句子
sentences = [
    "The weather is lovely today.",
    "It's so sunny outside!",
    "He drove to the stadium.",
]

# 2. 通过调用 model.encode() 计算嵌入向量
embeddings = model.encode(sentences)
print(embeddings.shape)
# (3, 3584)

# 3. 计算嵌入向量的相似度
# 假设 embeddings 是一个 numpy 数组，将其转换为 torch 张量
embeddings_tensor = torch.tensor(embeddings)

# 使用 torch 计算余弦相似度矩阵
similarities = torch.nn.functional.cosine_similarity(embeddings_tensor.unsqueeze(0), embeddings_tensor.unsqueeze(1), dim=2)

print(similarities)
# tensor([[1.0000, 0.8608, 0.6609],
#         [0.8608, 1.0000, 0.7046],
#         [0.6609, 0.7046, 1.0000]])

不使用 sentence-transformers 库

from transformers import AutoTokenizer, AutoModel
import torch

# 均值池化 - 考虑注意力掩码以进行正确的平均计算
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型输出的第一个元素包含所有词元嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# 我们需要获取句子嵌入的句子
sentences = ['This is an example sentence', 'Each sentence is converted']

# 从 HuggingFace Hub 加载模型
tokenizer = AutoTokenizer.from_pretrained('ssmits/Qwen2.5-7B-embed-base')
model = AutoModel.from_pretrained('ssmits/Qwen2.5-7B-embed-base') # 当显存 <= 24 GB 时，可设置 device = "cpu"

# 对句子进行分词
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# 计算词元嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 进行池化操作。在这种情况下，使用均值池化
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

启用多 GPU

from transformers import AutoModel
from torch.nn import DataParallel

model = AutoModel.from_pretrained("ssmits/Qwen2.5-7B-embed-base")
for module_key, module in model._modules.items():
    model._modules[module_key] = DataParallel(module)