all-mpnet-base-questions-clustering-en開源模型 - 免費實現英文問題聚類與語義相似度計算

首頁

All Mpnet Base Questions Clustering En

由aiknowyou開發

基於sentence-transformers的句子嵌入模型，專為問題聚類任務優化，支持英文文本的語義相似度計算

文本嵌入

PyTorch

英語#問題語義聚類 #多源問答數據 #高精度相似度

下載量 45

發布時間 : 9/13/2022

模型概述

該模型能夠將句子和段落映射到768維稠密向量空間，適用於聚類或語義搜索等任務。通過融合Quora、WikiAnswer和StackExchange三大公開數據集微調，顯著提升了識別語義相似問題的能力。

模型特點

問題聚類優化

專門針對問題聚類任務微調，在識別語義相似問題方面表現優異

多數據集融合訓練

融合Quora、WikiAnswer和StackExchange三大公開數據集進行訓練

高效語義編碼

能將句子和段落高效映射到768維稠密向量空間

模型能力

句子嵌入

語義相似度計算

問題聚類

特徵提取

使用案例

問答系統

相似問題識別

識別用戶提出的問題是否與已有問題語義相似

在WikiAnswer測試集上達到99.3%的餘弦相似度準確率

問題聚類

將語義相似的問題自動歸類

信息檢索

語義搜索

基於語義而非關鍵詞匹配的搜索系統

🚀 All-mpnet-base-v2模型：用於問題聚類的微調模型

本模型基於 sentence-transformers 構建，可將句子和段落映射到 768 維的密集向量空間，適用於聚類或語義搜索等任務。

該模型名為 all-mpnet-base-questions-clustering-en，是專門為問題聚類任務微調的 Sentence Transformers 模型。它使用了三個公開數據集（Quora、WikiAnswer 和 StackExchange）進行訓練，以提升在映射相似問題時的性能。

🚀 快速開始

📦 安裝指南

若已安裝 sentence-transformers，使用本模型將十分便捷。可通過以下命令進行安裝：

pip install -U sentence-transformers

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('aiknowyou/all-mpnet-base-questions-clustering-en')
embeddings = model.encode(sentences)
print(embeddings)

📚 詳細文檔

🔍 評估結果

本模型使用 WikiAnswer 數據集中的測試集進行評估，評估結果如下：

[
  {
    "epoch": 1,
    "cossim_accuracy": 0.9931843415744172,
    "cossim_accuracy_threshold": 0.35143423080444336,
    "cossim_f1": 0.9897547191636324,
    "cossim_precision": 0.9913437348280885,
    "cossim_recall": 0.9881707893839572,
    "cossim_f1_threshold": 0.35143423080444336,
    "cossim_ap": 0.9989950013637923,
    "manhattan_accuracy": 0.9934042015236294,
    "manhattan_accuracy_threshold": 24.160316467285156,
    "manhattan_f1": 0.9900818249442103,
    "manhattan_precision": 0.9920113508380628,
    "manhattan_recall": 0.9881597905828264,
    "manhattan_f1_threshold": 24.160316467285156,
    "manhattan_ap": 0.9990576126715013,
    "euclidean_accuracy": 0.9931843415744172,
    "euclidean_accuracy_threshold": 1.1389167308807373,
    "euclidean_f1": 0.9897547191636324,
    "euclidean_precision": 0.9913437348280885,
    "euclidean_recall": 0.9881707893839572,
    "euclidean_f1_threshold": 1.1389167308807373,
    "euclidean_ap": 0.9989921332302106,
    "dot_accuracy": 0.9931843415744172,
    "dot_accuracy_threshold": 0.35143429040908813,
    "dot_f1": 0.9897547191636324,
    "dot_precision": 0.9913437348280885,
    "dot_recall": 0.9881707893839572,
    "dot_f1_threshold": 0.35143429040908813,
    "dot_ap": 0.9989933009226604
  }
]

若需對本模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

🔧 訓練細節

本模型的訓練參數如下：

數據加載器 1

torch.utils.data.dataloader.DataLoader，長度為 34123，參數如下：

{
    "batch_size": 32,
    "sampler": "torch.utils.data.sampler.RandomSampler",
    "batch_sampler": "torch.utils.data.sampler.BatchSampler"
}

損失函數 1

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss，參數如下：

{
    "scale": 20.0,
    "similarity_fct": "cos_sim"
}

數據加載器 2

torch.utils.data.dataloader.DataLoader，長度為 51184，參數如下：

{
    "batch_size": 32,
    "sampler": "torch.utils.data.sampler.RandomSampler",
    "batch_sampler": "torch.utils.data.sampler.BatchSampler"
}

損失函數 2

sentence_transformers.losses.OnlineContrastiveLoss.OnlineContrastiveLoss

fit() 方法的參數

{
    "epochs": 2,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 1000,
    "weight_decay": 0.01
}

🔧 完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)