ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1開源模型

首頁

Ag Nli Bert Mpnet Base Uncased Sentence Similarity V1

由abbasgolestani開發

這是一個基於sentence-transformers的模型，能夠將句子和段落映射到768維的密集向量空間，適用於聚類或語義搜索等任務。

文本嵌入

Transformers

其他#句子相似度計算 #語義搜索優化 #無大小寫敏感

下載量 18

發布時間 : 9/21/2023

模型概述

該模型基於RoBERTa和MPNet架構，專門用於句子相似度計算和自然語言推理任務。

模型特點

高精度句子嵌入

能夠生成高質量的768維句子嵌入向量，準確捕捉語義信息

多任務支持

同時支持句子相似度計算和自然語言推理任務

無大小寫區分

模型對文本大小寫不敏感，提高了處理不同格式文本的魯棒性

模型能力

句子向量化

語義相似度計算

文本聚類

信息檢索

自然語言推理

使用案例

信息檢索

文檔相似性搜索

在大型文檔庫中查找語義相似的文檔

提高搜索相關性和準確性

客戶服務

自動問答匹配

將客戶問題與知識庫中的答案進行匹配

提高客服效率

內容管理

重複內容檢測

識別網站或文檔中的重複或高度相似內容

幫助優化內容策略

🚀 BERT/MPnet基礎模型（無大小寫區分）

本模型是一個句子轉換器模型，它可以將句子和段落映射到768維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

📦 安裝指南

若已安裝句子轉換器，使用該模型會非常便捷：

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用sentence-transformers庫的示例代碼如下：

from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1') nli-mpnet-base-v2

# 兩個句子列表
sentences1 = ['I am honored to be given the opportunity to help make our company better',
             'I love my job and what I do here',
             'I am excited about our company’s vision']

sentences2 = ['I am hopeful about the future of our company',
              'My work is aligning with my passion',
              'Definitely our company vision will be the next breakthrough to change the world and I’m so happy and proud to work here']

# 為兩個列表計算嵌入
embeddings1 = model.encode(sentences1, convert_to_tensor=True)
embeddings2 = model.encode(sentences2, convert_to_tensor=True)

# 計算餘弦相似度
cosine_scores = util.cos_sim(embeddings1, embeddings2)

# 輸出帶分數的句子對
for i in range(len(sentences1)):
    print("{} \t\t {} \t\t Score: {:.4f}".format(sentences1[i], sentences2[i], cosine_scores[i][i]))

高級用法

若未安裝句子轉換器，可按以下方式使用該模型：首先將輸入傳遞給轉換器模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch

# 均值池化 - 考慮注意力掩碼以進行正確的平均
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] # 模型輸出的第一個元素包含所有標記嵌入
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# 我們想要獲取句子嵌入的句子
sentences = ['This is an example sentence', 'Each sentence is converted']

# 從HuggingFace Hub加載模型
tokenizer = AutoTokenizer.from_pretrained('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1')
model = AutoModel.from_pretrained('abbasgolestani/ag-nli-bert-mpnet-base-uncased-sentence-similarity-v1')

# 對句子進行分詞
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# 計算標記嵌入
with torch.no_grad():
    model_output = model(**encoded_input)

# 執行池化。在這種情況下，是均值池化。
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

🔍 評估結果

該模型在包含1000個句子對的本地數據集上進行了評估，此算法在該數據集上的準確率達到了82%。

🔧 技術細節

訓練參數

模型使用以下參數進行訓練：

數據加載器： torch.utils.data.dataloader.DataLoader，長度為7，參數如下：

{'batch_size': 16, 'sampler': 'torch.utils.data.sampler.RandomSampler', 'batch_sampler': 'torch.utils.data.sampler.BatchSampler'}

損失函數： sentence_transformers.losses.CosineSimilarityLoss.CosineSimilarityLoss fit()方法的參數如下：

{
    "epochs": 1,
    "evaluation_steps": 0,
    "evaluator": "NoneType",
    "max_grad_norm": 1,
    "optimizer_class": "<class 'torch.optim.adamw.AdamW'>",
    "optimizer_params": {
        "lr": 2e-05
    },
    "scheduler": "WarmupLinear",
    "steps_per_epoch": null,
    "warmup_steps": 100,
    "weight_decay": 0.01
}

完整模型架構

SentenceTransformer(
  (0): Transformer({'max_seq_length': 75, 'do_lower_case': False}) with Transformer model: MPNetModel 
  (1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False})
)