JobBERT-v2开源模型 - 精准匹配职位名称，高效计算岗位相似度！

首页

Jobbert V2

由 TechWolf 开发

这是一个专门针对职位名称匹配和相似度训练的sentence-transformers模型，基于all-mpnet-base-v2微调，训练数据包含大量职位名称及其相关技能/要求。

文本嵌入

Safetensors

#职位语义匹配 #HR智能分析 #技能关联建模

下载量 8,001

发布时间 : 12/21/2024

模型简介

该模型将职位名称和描述映射到1024维稠密向量空间，可用于语义职位名称匹配、职位相似度搜索等HR/招聘相关任务。

模型特点

职位名称语义匹配

专门针对职位名称和技能描述进行优化，能够准确计算不同职位名称之间的语义相似度

大规模训练数据

基于550万+职位名称对进行训练，覆盖广泛的职业领域

高效向量表示

将文本映射到1024维稠密向量空间，便于相似度计算和检索

模型能力

职位名称相似度计算

职位技能匹配

语义搜索

特征提取

使用案例

人力资源与招聘

职位名称标准化

将不同公司使用的不同职位名称映射到标准化职位分类

提高职位数据的一致性和可比性

职位推荐系统

基于职位名称和描述的语义相似度为求职者推荐相关职位

提升职位匹配准确度

人才流动分析

分析不同职位之间的相似度，为员工职业发展路径规划提供依据

优化人才管理策略

🚀 基于 sentence-transformers/all-mpnet-base-v2 的句子转换器

本项目是一个专门为职位名称匹配和相似度计算而训练的 sentence-transformers 模型。它基于 sentence-transformers/all-mpnet-base-v2 在包含大量职位名称及其相关技能/要求的数据集上进行微调。该模型将职位名称和描述映射到一个 1024 维的密集向量空间，可用于语义职位名称匹配、职位相似度搜索以及相关的人力资源/招聘任务。

🚀 快速开始

直接使用（Sentence Transformers）

首先安装所需的包：

pip install -U sentence-transformers

然后可以使用以下代码加载和使用模型：

import torch
import numpy as np
from tqdm.auto import tqdm
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import batch_to_device, cos_sim

# 加载模型
model = SentenceTransformer("TechWolf/JobBERT-v2")

def encode_batch(jobbert_model, texts):
    features = jobbert_model.tokenize(texts)
    features = batch_to_device(features, jobbert_model.device)
    features["text_keys"] = ["anchor"]
    with torch.no_grad():
        out_features = jobbert_model.forward(features)
    return out_features["sentence_embedding"].cpu().numpy()

def encode(jobbert_model, texts, batch_size: int = 8):
    # 按文本长度排序并记录原始索引
    sorted_indices = np.argsort([len(text) for text in texts])
    sorted_texts = [texts[i] for i in sorted_indices]
    
    embeddings = []
    
    # 分批编码
    for i in tqdm(range(0, len(sorted_texts), batch_size)):
        batch = sorted_texts[i:i+batch_size]
        embeddings.append(encode_batch(jobbert_model, batch))
    
    # 连接嵌入并按原始索引重新排序
    sorted_embeddings = np.concatenate(embeddings)
    original_order = np.argsort(sorted_indices)
    return sorted_embeddings[original_order]

# 示例用法
job_titles = [
    'Software Engineer',
    'Senior Software Developer',
    'Product Manager',
    'Data Scientist'
]

# 获取嵌入
embeddings = encode(model, job_titles)

# 计算余弦相似度矩阵
similarities = cos_sim(embeddings, embeddings)
print(similarities)

输出将是一个相似度矩阵，其中每个值表示两个职位名称之间的余弦相似度：

tensor([[1.0000, 0.8723, 0.4821, 0.5447],
        [0.8723, 1.0000, 0.4822, 0.5019],
        [0.4821, 0.4822, 1.0000, 0.4328],
        [0.5447, 0.5019, 0.4328, 1.0000]])

在此示例中：

对角线上的值为 1.0000（自身的完美相似度）
'Software Engineer' 和 'Senior Software Developer' 具有较高的相似度（0.8723）
'Product Manager' 和 'Data Scientist' 与其他角色的相似度较低
所有值都在 0 到 1 之间，值越高表示相似度越高

示例用例

职位名称匹配：查找相似的职位名称以进行标准化或匹配
职位搜索：根据职位名称相似度为求职者匹配相关职位
人力资源分析：分析跨组织的职位名称模式和相似度
人才管理：识别相似的角色以进行职业发展和继任规划

✨ 主要特性

专门为职位名称匹配和相似度计算而训练
将职位名称和描述映射到 1024 维的密集向量空间
可用于语义职位名称匹配、职位相似度搜索以及相关的人力资源/招聘任务

📦 安装指南

pip install -U sentence-transformers

💻 使用示例

基础用法

import torch
import numpy as np
from tqdm.auto import tqdm
from sentence_transformers import SentenceTransformer
from sentence_transformers.util import batch_to_device, cos_sim

# 加载模型
model = SentenceTransformer("TechWolf/JobBERT-v2")

def encode_batch(jobbert_model, texts):
    features = jobbert_model.tokenize(texts)
    features = batch_to_device(features, jobbert_model.device)
    features["text_keys"] = ["anchor"]
    with torch.no_grad():
        out_features = jobbert_model.forward(features)
    return out_features["sentence_embedding"].cpu().numpy()

def encode(jobbert_model, texts, batch_size: int = 8):
    # 按文本长度排序并记录原始索引
    sorted_indices = np.argsort([len(text) for text in texts])
    sorted_texts = [texts[i] for i in sorted_indices]
    
    embeddings = []
    
    # 分批编码
    for i in tqdm(range(0, len(sorted_texts), batch_size)):
        batch = sorted_texts[i:i+batch_size]
        embeddings.append(encode_batch(jobbert_model, batch))
    
    # 连接嵌入并按原始索引重新排序
    sorted_embeddings = np.concatenate(embeddings)
    original_order = np.argsort(sorted_indices)
    return sorted_embeddings[original_order]

# 示例用法
job_titles = [
    'Software Engineer',
    'Senior Software Developer',
    'Product Manager',
    'Data Scientist'
]

# 获取嵌入
embeddings = encode(model, job_titles)

# 计算余弦相似度矩阵
similarities = cos_sim(embeddings, embeddings)
print(similarities)

📚 详细文档

模型详情

模型描述

属性	详情
模型类型	句子转换器
基础模型	sentence-transformers/all-mpnet-base-v2
最大序列长度	64 个标记
输出维度	1024 个标记
相似度函数	余弦相似度
训练数据集	550 万个以上的职位名称对
主要用例	职位名称匹配和相似度计算
性能	在 TalentCLEF 基准测试中达到 0.6457 的平均准确率均值（MAP）

模型来源

文档：Sentence Transformers 文档
仓库：GitHub 上的 Sentence Transformers
Hugging Face：Hugging Face 上的 Sentence Transformers

完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 64, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
  (2): Asym(
    (anchor-0): Dense({'in_features': 768, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
    (positive-0): Dense({'in_features': 768, 'out_features': 1024, 'bias': True, 'activation_function': 'torch.nn.modules.activation.Tanh'})
  )
)

训练详情

训练数据集

生成器
- 数据集：550 万个以上的职位名称对
- 格式：锚定职位名称与相关技能/要求配对
- 训练目标：学习职位名称与其相关技能之间的语义相似度
- 损失：使用余弦相似度的 CachedMultipleNegativesRankingLoss

训练超参数

批量大小：2048
学习率：5e-05
训练轮数：1
FP16 训练：启用
优化器：AdamW

框架版本

Python：3.9.19
Sentence Transformers：3.1.0
Transformers：4.44.2
PyTorch：2.4.1+cu118
Accelerate：0.34.2
Datasets：3.0.0
Tokenizers：0.19.1

🔧 技术细节

本模型基于 Sentence Transformers 框架，使用 MPNet 作为基础模型。通过在大规模的职位名称数据集上进行微调，学习职位名称和相关技能之间的语义相似度。具体来说，使用了 CachedMultipleNegativesRankingLoss 损失函数和余弦相似度来训练模型，以确保模型能够准确地捕捉职位名称之间的语义关系。

📄 许可证

文档中未提及相关许可证信息。

📖 引用

BibTeX

Sentence Transformers

@inproceedings{reimers-2019-sentence-bert,
    title = "Sentence-BERT: Sentence Embeddings using Siamese BERT-Networks",
    author = "Reimers, Nils and Gurevych, Iryna",
    booktitle = "Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing",
    month = "11",
    year = "2019",
    publisher = "Association for Computational Linguistics",
    url = "https://arxiv.org/abs/1908.10084",
}

CachedMultipleNegativesRankingLoss

@misc{gao2021scaling,
    title={Scaling Deep Contrastive Learning Batch Size under Memory Limited Setup},
    author={Luyu Gao and Yunyi Zhang and Jiawei Han and Jamie Callan},
    year={2021},
    eprint={2101.06983},
    archivePrefix={arXiv},
    primaryClass={cs.LG}
}