m - e5 - large_bs64_10_all_languages開源模型 - 免費實現句子相似度計算與語義搜索

首頁

M E5 Large Bs64 10 All Languages

由mrm8488開發

這是一個基於sentence-transformers的模型，能夠將句子和段落映射到1024維的密集向量空間，用於句子相似度計算和語義搜索等任務。

文本嵌入

PyTorch

#句子嵌入 #語義搜索 #1024維向量

下載量 73

發布時間 : 9/25/2023

模型概述

該模型專門用於計算句子和段落之間的語義相似度，通過生成高維向量表示來實現文本間的相似性比較。

模型特點

高維向量表示

將文本轉換為1024維的密集向量，捕捉深層語義特徵

語義相似度計算

能夠準確計算不同句子或段落之間的語義相似度

易於集成

通過簡單的API即可集成到現有應用中

模型能力

句子向量化

語義相似度計算

文本特徵提取

語義搜索

使用案例

信息檢索

語義搜索系統

構建基於語義而非關鍵詞的搜索系統

提高搜索結果的相關性和準確性

文本聚類

文檔自動分類

根據內容相似度對文檔進行自動分組

實現無監督的文檔分類

問答系統

相似問題匹配

在問答系統中匹配相似問題

提高問答系統的響應準確率

🚀 {MODEL_NAME}

這是一個句子轉換器模型：它能將句子和段落映射到一個1024維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

當你安裝了句子轉換器後，使用這個模型就變得很簡單：

pip install -U sentence-transformers

然後你可以像這樣使用該模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('{MODEL_NAME}')
embeddings = model.encode(sentences)
print(embeddings)

📊 評估結果

要對該模型進行自動評估，請參考 句子嵌入基準測試：https://seb.sbert.net

📦 安裝指南

使用該模型前，需要安裝sentence-transformers庫，安裝命令如下：

pip install -U sentence-transformers

🔧 技術細節

訓練參數

該模型使用以下參數進行訓練：

數據加載器： torch.utils.data.dataloader.DataLoader，長度為899，參數如下：

{'batch_size': 64, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數： sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss

fit()方法的參數：

{
    "epochs": 10,
    "evaluation_steps": 500,
    "evaluator": "sentence_transformers.evaluation.EmbeddingSimilarityEvaluator.EmbeddingSimilarityEvaluator",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 899,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 512, 'do_lower_case': False}) with Transformer model: XLMRobertaModel 
  (1): Pooling({'word_embedding_dimension': 1024, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
  (2): Normalize()
)