all-mpnet-base-questions-clustering-en开源模型 - 免费实现英文问题聚类与语义相似度计算

首页

All Mpnet Base Questions Clustering En

由 aiknowyou 开发

基于sentence-transformers的句子嵌入模型，专为问题聚类任务优化，支持英文文本的语义相似度计算

文本嵌入

PyTorch

英语#问题语义聚类 #多源问答数据 #高精度相似度

下载量 45

发布时间 : 9/13/2022

模型简介

该模型能够将句子和段落映射到768维稠密向量空间，适用于聚类或语义搜索等任务。通过融合Quora、WikiAnswer和StackExchange三大公开数据集微调，显著提升了识别语义相似问题的能力。

模型特点

问题聚类优化

专门针对问题聚类任务微调，在识别语义相似问题方面表现优异

多数据集融合训练

融合Quora、WikiAnswer和StackExchange三大公开数据集进行训练

高效语义编码

能将句子和段落高效映射到768维稠密向量空间

模型能力

句子嵌入

语义相似度计算

问题聚类

特征提取

使用案例

问答系统

相似问题识别

识别用户提出的问题是否与已有问题语义相似

在WikiAnswer测试集上达到99.3%的余弦相似度准确率

问题聚类

将语义相似的问题自动归类

信息检索

语义搜索

基于语义而非关键词匹配的搜索系统

🚀 All-mpnet-base-v2模型：用于问题聚类的微调模型

本模型基于 sentence-transformers 构建，可将句子和段落映射到 768 维的密集向量空间，适用于聚类或语义搜索等任务。

该模型名为 all-mpnet-base-questions-clustering-en，是专门为问题聚类任务微调的 Sentence Transformers 模型。它使用了三个公开数据集（Quora、WikiAnswer 和 StackExchange）进行训练，以提升在映射相似问题时的性能。

🚀 快速开始

📦 安装指南

若已安装 sentence-transformers，使用本模型将十分便捷。可通过以下命令进行安装：

pip install -U sentence-transformers

💻 使用示例

基础用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('aiknowyou/all-mpnet-base-questions-clustering-en')
embeddings = model.encode(sentences)
print(embeddings)

📚 详细文档

🔍 评估结果

本模型使用 WikiAnswer 数据集中的测试集进行评估，评估结果如下：

[
  {
    "epoch": 1,
    "cossim_accuracy": 0.9931843415744172,
    "cossim_accuracy_threshold": 0.35143423080444336,
    "cossim_f1": 0.9897547191636324,
    "cossim_precision": 0.9913437348280885,
    "cossim_recall": 0.9881707893839572,
    "cossim_f1_threshold": 0.35143423080444336,
    "cossim_ap": 0.9989950013637923,
    "manhattan_accuracy": 0.9934042015236294,
    "manhattan_accuracy_threshold": 24.160316467285156,
    "manhattan_f1": 0.9900818249442103,
    "manhattan_precision": 0.9920113508380628,
    "manhattan_recall": 0.9881597905828264,
    "manhattan_f1_threshold": 24.160316467285156,
    "manhattan_ap": 0.9990576126715013,
    "euclidean_accuracy": 0.9931843415744172,
    "euclidean_accuracy_threshold": 1.1389167308807373,
    "euclidean_f1": 0.9897547191636324,
    "euclidean_precision": 0.9913437348280885,
    "euclidean_recall": 0.9881707893839572,
    "euclidean_f1_threshold": 1.1389167308807373,
    "euclidean_ap": 0.9989921332302106,
    "dot_accuracy": 0.9931843415744172,
    "dot_accuracy_threshold": 0.35143429040908813,
    "dot_f1": 0.9897547191636324,
    "dot_precision": 0.9913437348280885,
    "dot_recall": 0.9881707893839572,
    "dot_f1_threshold": 0.35143429040908813,
    "dot_ap": 0.9989933009226604
  }
]

若需对本模型进行自动评估，请参考 Sentence Embeddings Benchmark：https://seb.sbert.net

🔧 训练细节

本模型的训练参数如下：

数据加载器 1

torch.utils.data.dataloader.DataLoader，长度为 34123，参数如下：

{
    "batch_size": 32,
    "sampler": "torch.utils.data.sampler.RandomSampler",
    "batch_sampler": "torch.utils.data.sampler.BatchSampler"
}

损失函数 1

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，参数如下：

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

数据加载器 2

torch.utils.data.dataloader.DataLoader，长度为 51184，参数如下：

{
    "batch_size": 32,
    "sampler": "torch.utils.data.sampler.RandomSampler",
    "batch_sampler": "torch.utils.data.sampler.BatchSampler"
}

损失函数 2

sentence_transformers.losses.OnlineContrastiveLoss.OnlineContrastiveLoss

fit() 方法的参数

{
    "epochs": 2,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 1000,
    "weight_decay": 0.01
}

🔧 完整模型架构

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)