all-mpnet-base-questions-clustering-enオープンソースモデル - 英語の質問のクラスタリングと意味の類似度計算を無料で実現

ホーム

All Mpnet Base Questions Clustering En

aiknowyouによって開発

sentence-transformersに基づく文埋め込みモデルで、問題のクラスタリングタスクに特化して最適化され、英語テキストの意味的類似度計算をサポートします。

テキスト埋め込み

PyTorch

英語#問題の意味クラスタリング #多ソースの質問応答データ #高精度の類似度

ダウンロード数 45

リリース時間 : 9/13/2022

モデル概要

このモデルは、文や段落を768次元の密ベクトル空間にマッピングでき、クラスタリングや意味検索などのタスクに適しています。Quora、WikiAnswer、StackExchangeの3つの公開データセットを融合して微調整することで、意味的に類似した問題を識別する能力が大幅に向上しました。

モデル特徴

問題クラスタリングの最適化

問題のクラスタリングタスクに特化して微調整され、意味的に類似した問題を識別する能力に優れています。

複数のデータセットを融合した学習

Quora、WikiAnswer、StackExchangeの3つの公開データセットを融合して学習します。

効率的な意味エンコーディング

文や段落を効率的に768次元の密ベクトル空間にマッピングできます。

モデル能力

文の埋め込み

意味的類似度計算

問題のクラスタリング

特徴抽出

使用事例

質問応答システム

類似問題の識別

ユーザーが提出した問題が既存の問題と意味的に類似しているかどうかを識別します。

WikiAnswerテストセットで99.3%のコサイン類似度の正解率を達成しました。

問題のクラスタリング

意味的に類似した問題を自動的に分類します。

情報検索

意味検索

キーワードマッチングではなく、意味に基づく検索システムです。

🚀 All-mpnet-base-v2 質問クラスタリング用にファインチューニングされたモデル

このモデルは、sentence-transformers をベースにしたモデルです。文章や段落を768次元の密ベクトル空間にマッピングし、クラスタリングや意味検索などのタスクに使用できます。

このモデルは、質問のクラスタリングタスクに特化してファインチューニングされた Sentence Transformers モデルであるため、all-mpnet-base-questions-clustering-en と命名されています。Quora、WikiAnswer、StackExchange の3つの公開データセットを使用して、特に意味の似た質問のマッピング性能を向上させています。

🚀 クイックスタート

✨ 主な機能

文章や段落を768次元の密ベクトル空間にマッピングする。
クラスタリングや意味検索などのタスクに使用できる。
質問のクラスタリングタスクに特化してファインチューニングされている。

📦 インストール

sentence-transformers をインストールすると、このモデルを簡単に使用できます。

pip install -U sentence-transformers

💻 使用例

基本的な使用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('aiknowyou/all-mpnet-base-questions-clustering-en')
embeddings = model.encode(sentences)
print(embeddings)

📚 詳細ドキュメント

評価結果

現在のモデルは、WikiAnswer データセットのテストセットを使用して評価されています。評価結果は以下の通りです。

[
  {
    "epoch": 1,
    "cossim_accuracy": 0.9931843415744172,
    "cossim_accuracy_threshold": 0.35143423080444336,
    "cossim_f1": 0.9897547191636324,
    "cossim_precision": 0.9913437348280885,
    "cossim_recall": 0.9881707893839572,
    "cossim_f1_threshold": 0.35143423080444336,
    "cossim_ap": 0.9989950013637923,
    "manhattan_accuracy": 0.9934042015236294,
    "manhattan_accuracy_threshold": 24.160316467285156,
    "manhattan_f1": 0.9900818249442103,
    "manhattan_precision": 0.9920113508380628,
    "manhattan_recall": 0.9881597905828264,
    "manhattan_f1_threshold": 24.160316467285156,
    "manhattan_ap": 0.9990576126715013,
    "euclidean_accuracy": 0.9931843415744172,
    "euclidean_accuracy_threshold": 1.1389167308807373,
    "euclidean_f1": 0.9897547191636324,
    "euclidean_precision": 0.9913437348280885,
    "euclidean_recall": 0.9881707893839572,
    "euclidean_f1_threshold": 1.1389167308807373,
    "euclidean_ap": 0.9989921332302106,
    "dot_accuracy": 0.9931843415744172,
    "dot_accuracy_threshold": 0.35143429040908813,
    "dot_f1": 0.9897547191636324,
    "dot_precision": 0.9913437348280885,
    "dot_recall": 0.9881707893839572,
    "dot_f1_threshold": 0.35143429040908813,
    "dot_ap": 0.9989933009226604
  }
]

このモデルの自動評価については、Sentence Embeddings Benchmark を参照してください。https://seb.sbert.net

学習

このモデルは以下のパラメータで学習されています。

DataLoader:

torch.utils.data.dataloader.DataLoader

長さ34123のデータローダーで、パラメータは以下の通りです。

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss:

sentence_transformers.losses.MultipleNegativesRankingLoss.MultipleNegativesRankingLoss

パラメータは以下の通りです。

{'scale': 20.0, 'similarity_fct': 'cos_sim'}

DataLoader:

torch.utils.data.dataloader.DataLoader

長さ51184のデータローダーで、パラメータは以下の通りです。

{'batch_size': 32, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

Loss:

sentence_transformers.losses.OnlineContrastiveLoss.OnlineContrastiveLoss

fit() メソッドのパラメータは以下の通りです。

{
    "epochs": 2,
    "evaluation_steps": 0,
    "evaluator": "sentence_transformers.evaluation.SequentialEvaluator.SequentialEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 1000,
    "weight_decay": 0.01
}

モデルの全アーキテクチャ

SentenceTransformer(
  (0): Transformer({'max_seq_length': 384, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)