all-mpnet-base-v2-negation开源句子嵌入模型 - 精准处理否定句，助力相似度计算

首页

All Mpnet Base V2 Negation

由 dmlls 开发

这是一个基于MPNet架构的句子嵌入模型，专门优化了处理否定句的能力，适用于句子相似度计算任务。

文本嵌入

Safetensors

英语开源协议:Apache-2.0 #否定句处理优化 #多领域句子相似度 #高精度语义匹配

下载量 4,996

发布时间 : 4/7/2023

模型简介

该模型是一个句子转换器，主要用于特征提取和句子相似度计算，特别擅长处理包含否定词的句子。

模型特点

否定句处理优化

专门针对否定句进行了优化，能够准确识别和处理包含否定词的句子。

多任务训练

在多种数据集上进行训练，包括s2orc、stackexchange、ms_marco等，提高了模型的泛化能力。

高性能

在多个基准测试中表现出色，特别是在句子相似度和分类任务上。

模型能力

句子相似度计算

特征提取

文本分类

聚类分析

使用案例

文本分析

问答系统

用于计算问题和候选答案之间的相似度，提高问答系统的准确性。

在MTEB AskUbuntu重复问题任务中取得65.57的平均精度均值。

情感分析

识别文本中的情感倾向，特别是能够准确处理包含否定词的情感表达。

在MTEB情感分类任务中取得45.63的准确率。

信息检索

文档聚类

将语义相似的文档或句子聚类在一起，用于信息组织和检索。

在MTEB论文点对点聚类任务中取得45.73的V度量值。

🚀 all-mpnet-base-v2-negation

本模型是一个经过微调的 sentence-transformers 模型，在处理否定句对时表现更优。它能够将句子和段落映射到 768 维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

安装依赖

使用该模型，需要安装 sentence-transformers：

pip install -U sentence-transformers

使用示例

基础用法

from sentence_transformers import SentenceTransformer

sentences = [
    "I like rainy days because they make me feel relaxed.",
    "I don't like rainy days because they don't make me feel relaxed."
]

model = SentenceTransformer('dmlls/all-mpnet-base-v2-negation')
embeddings = model.encode(sentences)
print(embeddings)

高级用法

若未安装 sentence-transformers，可以按以下方式使用该模型：首先将输入传递给变压器模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = [
    "I like rainy days because they make me feel relaxed.",
    "I don't like rainy days because they don't make me feel relaxed."
]

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('dmlls/all-mpnet-base-v2-negation')
model = AutoModel.from_pretrained('dmlls/all-mpnet-base-v2-negation')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print(sentence_embeddings)

📚 详细文档

背景

本模型是在 This is not correct! Negation-aware Evaluation of Language Generation Systems 论文的背景下进行微调的。

预期用途

我们的模型旨在用作句子和短段落编码器，与基础模型相比，在处理否定句对时表现出色（即报告较低的相似度分数）。

给定输入文本，模型会输出一个捕获语义信息的向量。该句子向量可用于信息检索、聚类或句子相似度任务。

默认情况下，超过 384 个词块的输入文本将被截断。

训练过程

预训练

我们使用 sentence-transformers/all-mpnet-base-v2 作为基础模型。

微调

我们使用对比目标在 CANNOT 数据集上对模型进行了微调。具体来说，我们计算批次中每个可能的句子对的余弦相似度，然后通过与真实对进行比较来应用交叉熵损失。

超参数

我们采用了与其他 Sentence Transformers 的训练方式类似的方法。我们将 CANNOT 数据集中的前 90% 样本作为训练集。我们使用了 64 的批次大小，并训练了 1 个 epoch。

🔧 技术细节

模型指标

任务类型	数据集名称	准确率	平均精度	F1 分数
分类	MTEB AmazonCounterfactualClassification (en)	72.6268656716418	36.40585820220466	67.06383995428979
分类	MTEB AmazonPolarityClassification	85.11834999999999	79.72843246428603	85.08938287851875
分类	MTEB AmazonReviewsClassification (en)	37.788000000000004	-	37.40475118737949
聚类	MTEB ArxivClusteringP2P	-	-	45.73138953773995
聚类	MTEB ArxivClusteringS2S	-	-	39.13609863309245
重排序	MTEB AskUbuntuDupQuestions	65.56639026991134	77.8122938926263	-
STS	MTEB BIOSSES	72.27098152643569（cos_sim_pearson）等多种指标	-	-
分类	MTEB Banking77Classification	84.7012987012987	-	84.61766470772943
聚类	MTEB BiorxivClusteringP2P	-	-	37.61314886948818
聚类	MTEB BiorxivClusteringS2S	-	-	34.496442588205205
分类	MTEB EmotionClassification	45.63	-	40.24119129248194
分类	MTEB ImdbClassification	74.73479999999999	68.80435332319863	74.66014345440416
分类	MTEB MTOPDomainClassification (en)	93.06429548563612	-	92.91686969560733
分类	MTEB MTOPIntentClassification (en)	78.19197446420428	-	61.50020940946492
分类	MTEB MassiveIntentClassification (en)	73.86684599865502	-	72.11245795864379
分类	MTEB MassiveScenarioClassification (en)	77.53866845998655	-	77.51746806908895
聚类	MTEB MedrxivClusteringP2P	-	-	33.66744884855605
聚类	MTEB MedrxivClusteringS2S	-	-	31.951900966550262
重排序	MTEB MindSmallReranking	29.34485636178124	30.118035109577022	-
聚类	MTEB RedditClustering	-	-	47.14306531904168
聚类	MTEB RedditClusteringP2P	-	-	51.59878183893005
STS	MTEB SICK-R	78.5530506834234（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS12	83.1019526956277（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS13	85.09200805966644（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS14	82.43419245577238（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS15	84.67294508915346（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS16	80.70172607906416（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS17 (en-en)	90.43640731744911（cos_sim_pearson）等多种指标	-	-
STS	MTEB STS22 (en)	62.06205206393254（cos_sim_pearson）等多种指标	-	-
STS	MTEB STSBenchmark	84.78948820087687（cos_sim_pearson）等多种指标	-	-
重排序	MTEB SciDocsRR	88.39411601972704	96.49192583016112	-
成对分类	MTEB SprintDuplicateQuestions	99.55445544554455（cos_sim_accuracy）等多种指标	-	-
聚类	MTEB StackExchangeClustering	-	-	49.33929838947165
聚类	MTEB StackExchangeClusteringP2P	-	-	31.523973661953686
重排序	MTEB StackOverflowDupQuestions	52.22408767861519	53.16279921059333	-
摘要	MTEB SummEval	28.128173244098726（cos_sim_pearson）等多种指标	-	-
分类	MTEB ToxicConversationsClassification	67.6684	12.681984793717413	51.97637585601529
分类	MTEB TweetSentimentExtractionClassification	58.44086021505377	-	58.68058329615692
聚类	MTEB TwentyNewsgroupsClustering	-	-	44.226944341054015
成对分类	MTEB TwitterSemEval2015	86.87488823985218（cos_sim_accuracy）等多种指标	-	-
成对分类	MTEB TwitterURLCorpus	88.43870066363954（cos_sim_accuracy）等多种指标	-	-