All Mpnet Base V2 Negation
A
All Mpnet Base V2 Negation
由dmlls開發
這是一個基於MPNet架構的句子嵌入模型,專門優化了處理否定句的能力,適用於句子相似度計算任務。
下載量 4,996
發布時間 : 4/7/2023
模型概述
該模型是一個句子轉換器,主要用於特徵提取和句子相似度計算,特別擅長處理包含否定詞的句子。
模型特點
否定句處理優化
專門針對否定句進行了優化,能夠準確識別和處理包含否定詞的句子。
多任務訓練
在多種數據集上進行訓練,包括s2orc、stackexchange、ms_marco等,提高了模型的泛化能力。
高性能
在多個基準測試中表現出色,特別是在句子相似度和分類任務上。
模型能力
句子相似度計算
特徵提取
文本分類
聚類分析
使用案例
文本分析
問答系統
用於計算問題和候選答案之間的相似度,提高問答系統的準確性。
在MTEB AskUbuntu重複問題任務中取得65.57的平均精度均值。
情感分析
識別文本中的情感傾向,特別是能夠準確處理包含否定詞的情感表達。
在MTEB情感分類任務中取得45.63的準確率。
信息檢索
文檔聚類
將語義相似的文檔或句子聚類在一起,用於信息組織和檢索。
在MTEB論文點對點聚類任務中取得45.73的V度量值。
🚀 all-mpnet-base-v2-negation
本模型是一個經過微調的 sentence-transformers 模型,在處理否定句對時表現更優。它能夠將句子和段落映射到 768 維的密集向量空間,可用於聚類或語義搜索等任務。
🚀 快速開始
安裝依賴
使用該模型,需要安裝 sentence-transformers:
pip install -U sentence-transformers
使用示例
基礎用法
from sentence_transformers import SentenceTransformer
sentences = [
"I like rainy days because they make me feel relaxed.",
"I don't like rainy days because they don't make me feel relaxed."
]
model = SentenceTransformer('dmlls/all-mpnet-base-v2-negation')
embeddings = model.encode(sentences)
print(embeddings)
高級用法
若未安裝 sentence-transformers,可以按以下方式使用該模型:首先將輸入傳遞給變壓器模型,然後對上下文詞嵌入應用正確的池化操作。
from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F
# Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
token_embeddings = model_output[0] #First element of model_output contains all token embeddings
input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)
# Sentences we want sentence embeddings for
sentences = [
"I like rainy days because they make me feel relaxed.",
"I don't like rainy days because they don't make me feel relaxed."
]
# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('dmlls/all-mpnet-base-v2-negation')
model = AutoModel.from_pretrained('dmlls/all-mpnet-base-v2-negation')
# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')
# Compute token embeddings
with torch.no_grad():
model_output = model(**encoded_input)
# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print(sentence_embeddings)
📚 詳細文檔
背景
本模型是在 This is not correct! Negation-aware Evaluation of Language Generation Systems 論文的背景下進行微調的。
預期用途
我們的模型旨在用作句子和短段落編碼器,與基礎模型相比,在處理否定句對時表現出色(即報告較低的相似度分數)。
給定輸入文本,模型會輸出一個捕獲語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。
默認情況下,超過 384 個詞塊的輸入文本將被截斷。
訓練過程
預訓練
我們使用 sentence-transformers/all-mpnet-base-v2
作為基礎模型。
微調
我們使用對比目標在 CANNOT 數據集 上對模型進行了微調。具體來說,我們計算批次中每個可能的句子對的餘弦相似度,然後通過與真實對進行比較來應用交叉熵損失。
超參數
我們採用了與 其他 Sentence Transformers 的訓練方式 類似的方法。我們將 CANNOT 數據集中的前 90% 樣本作為訓練集。 我們使用了 64 的批次大小,並訓練了 1 個 epoch。
🔧 技術細節
模型指標
任務類型 | 數據集名稱 | 準確率 | 平均精度 | F1 分數 |
---|---|---|---|---|
分類 | MTEB AmazonCounterfactualClassification (en) | 72.6268656716418 | 36.40585820220466 | 67.06383995428979 |
分類 | MTEB AmazonPolarityClassification | 85.11834999999999 | 79.72843246428603 | 85.08938287851875 |
分類 | MTEB AmazonReviewsClassification (en) | 37.788000000000004 | - | 37.40475118737949 |
聚類 | MTEB ArxivClusteringP2P | - | - | 45.73138953773995 |
聚類 | MTEB ArxivClusteringS2S | - | - | 39.13609863309245 |
重排序 | MTEB AskUbuntuDupQuestions | 65.56639026991134 | 77.8122938926263 | - |
STS | MTEB BIOSSES | 72.27098152643569(cos_sim_pearson)等多種指標 | - | - |
分類 | MTEB Banking77Classification | 84.7012987012987 | - | 84.61766470772943 |
聚類 | MTEB BiorxivClusteringP2P | - | - | 37.61314886948818 |
聚類 | MTEB BiorxivClusteringS2S | - | - | 34.496442588205205 |
分類 | MTEB EmotionClassification | 45.63 | - | 40.24119129248194 |
分類 | MTEB ImdbClassification | 74.73479999999999 | 68.80435332319863 | 74.66014345440416 |
分類 | MTEB MTOPDomainClassification (en) | 93.06429548563612 | - | 92.91686969560733 |
分類 | MTEB MTOPIntentClassification (en) | 78.19197446420428 | - | 61.50020940946492 |
分類 | MTEB MassiveIntentClassification (en) | 73.86684599865502 | - | 72.11245795864379 |
分類 | MTEB MassiveScenarioClassification (en) | 77.53866845998655 | - | 77.51746806908895 |
聚類 | MTEB MedrxivClusteringP2P | - | - | 33.66744884855605 |
聚類 | MTEB MedrxivClusteringS2S | - | - | 31.951900966550262 |
重排序 | MTEB MindSmallReranking | 29.34485636178124 | 30.118035109577022 | - |
聚類 | MTEB RedditClustering | - | - | 47.14306531904168 |
聚類 | MTEB RedditClusteringP2P | - | - | 51.59878183893005 |
STS | MTEB SICK-R | 78.5530506834234(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS12 | 83.1019526956277(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS13 | 85.09200805966644(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS14 | 82.43419245577238(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS15 | 84.67294508915346(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS16 | 80.70172607906416(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS17 (en-en) | 90.43640731744911(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STS22 (en) | 62.06205206393254(cos_sim_pearson)等多種指標 | - | - |
STS | MTEB STSBenchmark | 84.78948820087687(cos_sim_pearson)等多種指標 | - | - |
重排序 | MTEB SciDocsRR | 88.39411601972704 | 96.49192583016112 | - |
成對分類 | MTEB SprintDuplicateQuestions | 99.55445544554455(cos_sim_accuracy)等多種指標 | - | - |
聚類 | MTEB StackExchangeClustering | - | - | 49.33929838947165 |
聚類 | MTEB StackExchangeClusteringP2P | - | - | 31.523973661953686 |
重排序 | MTEB StackOverflowDupQuestions | 52.22408767861519 | 53.16279921059333 | - |
摘要 | MTEB SummEval | 28.128173244098726(cos_sim_pearson)等多種指標 | - | - |
分類 | MTEB ToxicConversationsClassification | 67.6684 | 12.681984793717413 | 51.97637585601529 |
分類 | MTEB TweetSentimentExtractionClassification | 58.44086021505377 | - | 58.68058329615692 |
聚類 | MTEB TwentyNewsgroupsClustering | - | - | 44.226944341054015 |
成對分類 | MTEB TwitterSemEval2015 | 86.87488823985218(cos_sim_accuracy)等多種指標 | - | - |
成對分類 | MTEB TwitterURLCorpus | 88.43870066363954(cos_sim_accuracy)等多種指標 | - | - |
訓練數據
- s2orc
- flax-sentence-embeddings/stackexchange_xml
- ms_marco
- gooaq
- yahoo_answers_topics
- code_search_net
- search_qa
- eli5
- snli
- multi_nli
- wikihow
- natural_questions
- trivia_qa
- embedding-data/sentence-compression
- embedding-data/flickr30k-captions
- embedding-data/altlex
- embedding-data/simple-wiki
- embedding-data/QQP
- embedding-data/SPECTER
- embedding-data/PAQ_pairs
- embedding-data/WikiAnswers
- tum-nlp/cannot-dataset
📄 許可證
本項目採用 Apache-2.0 許可證。
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98