All Mpnet Base V2 Negation
A
All Mpnet Base V2 Negation
由 dmlls 开发
这是一个基于MPNet架构的句子嵌入模型,专门优化了处理否定句的能力,适用于句子相似度计算任务。
下载量 4,996
发布时间 : 4/7/2023
模型简介
该模型是一个句子转换器,主要用于特征提取和句子相似度计算,特别擅长处理包含否定词的句子。
模型特点
否定句处理优化
专门针对否定句进行了优化,能够准确识别和处理包含否定词的句子。
多任务训练
在多种数据集上进行训练,包括s2orc、stackexchange、ms_marco等,提高了模型的泛化能力。
高性能
在多个基准测试中表现出色,特别是在句子相似度和分类任务上。
模型能力
句子相似度计算
特征提取
文本分类
聚类分析
使用案例
文本分析
问答系统
用于计算问题和候选答案之间的相似度,提高问答系统的准确性。
在MTEB AskUbuntu重复问题任务中取得65.57的平均精度均值。
情感分析
识别文本中的情感倾向,特别是能够准确处理包含否定词的情感表达。
在MTEB情感分类任务中取得45.63的准确率。
信息检索
文档聚类
将语义相似的文档或句子聚类在一起,用于信息组织和检索。
在MTEB论文点对点聚类任务中取得45.73的V度量值。
🚀 all-mpnet-base-v2-negation
本模型是一个经过微调的 sentence-transformers 模型,在处理否定句对时表现更优。它能够将句子和段落映射到 768 维的密集向量空间,可用于聚类或语义搜索等任务。
🚀 快速开始
安装依赖
使用该模型,需要安装 sentence-transformers:
pip install -U sentence-transformers
使用示例
基础用法
from sentence_transformers import SentenceTransformer
sentences = [
"I like rainy days because they make me feel relaxed.",
"I don't like rainy days because they don't make me feel relaxed."
]
model = SentenceTransformer('dmlls/all-mpnet-base-v2-negation')
embeddings = model.encode(sentences)
print(embeddings)
高级用法
若未安装 sentence-transformers,可以按以下方式使用该模型:首先将输入传递给变压器模型,然后对上下文词嵌入应用正确的池化操作。
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0] #First element of model_output contains all token embeddings
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
# Sentences we want sentence embeddings for
sentences = [
"I like rainy days because they make me feel relaxed.",
"I don't like rainy days because they don't make me feel relaxed."
]
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('dmlls/all-mpnet-base-v2-negation')
model = AutoModel.from_pretrained('dmlls/all-mpnet-base-v2-negation')
# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
model_output = model(**encoded_input)
# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print(sentence_embeddings)
📚 详细文档
背景
本模型是在 This is not correct! Negation-aware Evaluation of Language Generation Systems 论文的背景下进行微调的。
预期用途
我们的模型旨在用作句子和短段落编码器,与基础模型相比,在处理否定句对时表现出色(即报告较低的相似度分数)。
给定输入文本,模型会输出一个捕获语义信息的向量。该句子向量可用于信息检索、聚类或句子相似度任务。
默认情况下,超过 384 个词块的输入文本将被截断。
训练过程
预训练
我们使用 sentence-transformers/all-mpnet-base-v2
作为基础模型。
微调
我们使用对比目标在 CANNOT 数据集 上对模型进行了微调。具体来说,我们计算批次中每个可能的句子对的余弦相似度,然后通过与真实对进行比较来应用交叉熵损失。
超参数
我们采用了与 其他 Sentence Transformers 的训练方式 类似的方法。我们将 CANNOT 数据集中的前 90% 样本作为训练集。 我们使用了 64 的批次大小,并训练了 1 个 epoch。
🔧 技术细节
模型指标
任务类型 | 数据集名称 | 准确率 | 平均精度 | F1 分数 |
---|---|---|---|---|
分类 | MTEB AmazonCounterfactualClassification (en) | 72.6268656716418 | 36.40585820220466 | 67.06383995428979 |
分类 | MTEB AmazonPolarityClassification | 85.11834999999999 | 79.72843246428603 | 85.08938287851875 |
分类 | MTEB AmazonReviewsClassification (en) | 37.788000000000004 | - | 37.40475118737949 |
聚类 | MTEB ArxivClusteringP2P | - | - | 45.73138953773995 |
聚类 | MTEB ArxivClusteringS2S | - | - | 39.13609863309245 |
重排序 | MTEB AskUbuntuDupQuestions | 65.56639026991134 | 77.8122938926263 | - |
STS | MTEB BIOSSES | 72.27098152643569(cos_sim_pearson)等多种指标 | - | - |
分类 | MTEB Banking77Classification | 84.7012987012987 | - | 84.61766470772943 |
聚类 | MTEB BiorxivClusteringP2P | - | - | 37.61314886948818 |
聚类 | MTEB BiorxivClusteringS2S | - | - | 34.496442588205205 |
分类 | MTEB EmotionClassification | 45.63 | - | 40.24119129248194 |
分类 | MTEB ImdbClassification | 74.73479999999999 | 68.80435332319863 | 74.66014345440416 |
分类 | MTEB MTOPDomainClassification (en) | 93.06429548563612 | - | 92.91686969560733 |
分类 | MTEB MTOPIntentClassification (en) | 78.19197446420428 | - | 61.50020940946492 |
分类 | MTEB MassiveIntentClassification (en) | 73.86684599865502 | - | 72.11245795864379 |
分类 | MTEB MassiveScenarioClassification (en) | 77.53866845998655 | - | 77.51746806908895 |
聚类 | MTEB MedrxivClusteringP2P | - | - | 33.66744884855605 |
聚类 | MTEB MedrxivClusteringS2S | - | - | 31.951900966550262 |
重排序 | MTEB MindSmallReranking | 29.34485636178124 | 30.118035109577022 | - |
聚类 | MTEB RedditClustering | - | - | 47.14306531904168 |
聚类 | MTEB RedditClusteringP2P | - | - | 51.59878183893005 |
STS | MTEB SICK-R | 78.5530506834234(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS12 | 83.1019526956277(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS13 | 85.09200805966644(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS14 | 82.43419245577238(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS15 | 84.67294508915346(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS16 | 80.70172607906416(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS17 (en-en) | 90.43640731744911(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STS22 (en) | 62.06205206393254(cos_sim_pearson)等多种指标 | - | - |
STS | MTEB STSBenchmark | 84.78948820087687(cos_sim_pearson)等多种指标 | - | - |
重排序 | MTEB SciDocsRR | 88.39411601972704 | 96.49192583016112 | - |
成对分类 | MTEB SprintDuplicateQuestions | 99.55445544554455(cos_sim_accuracy)等多种指标 | - | - |
聚类 | MTEB StackExchangeClustering | - | - | 49.33929838947165 |
聚类 | MTEB StackExchangeClusteringP2P | - | - | 31.523973661953686 |
重排序 | MTEB StackOverflowDupQuestions | 52.22408767861519 | 53.16279921059333 | - |
摘要 | MTEB SummEval | 28.128173244098726(cos_sim_pearson)等多种指标 | - | - |
分类 | MTEB ToxicConversationsClassification | 67.6684 | 12.681984793717413 | 51.97637585601529 |
分类 | MTEB TweetSentimentExtractionClassification | 58.44086021505377 | - | 58.68058329615692 |
聚类 | MTEB TwentyNewsgroupsClustering | - | - | 44.226944341054015 |
成对分类 | MTEB TwitterSemEval2015 | 86.87488823985218(cos_sim_accuracy)等多种指标 | - | - |
成对分类 | MTEB TwitterURLCorpus | 88.43870066363954(cos_sim_accuracy)等多种指标 | - | - |
训练数据
- s2orc
- flax-sentence-embeddings/stackexchange_xml
- ms_marco
- gooaq
- yahoo_answers_topics
- code_search_net
- search_qa
- eli5
- snli
- multi_nli
- wikihow
- natural_questions
- trivia_qa
- embedding-data/sentence-compression
- embedding-data/flickr30k-captions
- embedding-data/altlex
- embedding-data/simple-wiki
- embedding-data/QQP
- embedding-data/SPECTER
- embedding-data/PAQ_pairs
- embedding-data/WikiAnswers
- tum-nlp/cannot-dataset
📄 许可证
本项目采用 Apache-2.0 许可证。
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98