all-mpnet-base-v2開源句子嵌入模型 - 免費用於語義搜索和文本相似度任務

首頁

All Mpnet Base V2

由diptanuc開發

基於MPNet架構的句子嵌入模型，可將文本映射到768維向量空間，適用於語義搜索和文本相似度任務

文本嵌入英語開源協議:Apache-2.0 #句子嵌入 #語義搜索 #對比學習

下載量 138

發布時間 : 4/23/2023

模型概述

該模型是一個句子轉換器，能夠將句子和段落轉換為密集向量表示，適用於聚類、語義搜索等自然語言處理任務。

模型特點

高質量句子嵌入

在超過10億句子對上進行訓練，產生高質量的句子向量表示

對比學習訓練

採用對比學習目標，使相似句子在向量空間中更接近

多數據集融合

融合了20多個不同來源的數據集進行訓練，增強了模型的泛化能力

模型能力

句子向量化

語義相似度計算

文本聚類

信息檢索

問答系統支持

使用案例

信息檢索

語義搜索

將查詢和文檔轉換為向量，實現基於語義而非關鍵詞的搜索

提高搜索結果的相關性

文本分析

文檔聚類

將相似文檔分組，用於主題建模或內容組織

自動發現文檔集合中的主題結構

問答系統

問題匹配

識別用戶問題與知識庫中已有問題的語義相似度

提高問答系統的準確率

🚀 all-mpnet-base-v2

all-mpnet-base-v2 是一個基於 sentence-transformers 的模型，它可以將句子和段落映射到 768 維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

本模型有兩種使用方式，分別是使用 sentence-transformers 庫和使用 HuggingFace Transformers 庫，下面為你詳細介紹。

✨ 主要特性

能夠將句子和段落映射到 768 維的密集向量空間。
可用於聚類、語義搜索等任務。
基於預訓練的 microsoft/mpnet-base 模型進行微調。

📦 安裝指南

若要使用 sentence-transformers 庫調用本模型，你需要先安裝該庫：

pip install -U sentence-transformers

💻 使用示例

基礎用法（Sentence-Transformers）

安裝 sentence-transformers 庫後，你可以按照以下方式使用本模型：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

高級用法（HuggingFace Transformers）

若未安裝 sentence-transformers 庫，你可以按以下步驟使用本模型：首先，將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

評估結果

若要對本模型進行自動化評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

背景

本項目旨在使用自監督對比學習目標，在非常大的句子級數據集上訓練句子嵌入模型。我們使用了預訓練的 microsoft/mpnet-base 模型，並在包含 10 億個句子對的數據集上進行了微調。我們採用對比學習目標：給定一對句子中的一個句子，模型應從一組隨機採樣的其他句子中預測出在數據集中實際與之配對的句子。

本模型是在 Hugging Face 組織的 Community week using JAX/Flax for NLP & CV 活動期間開發的。我們將其作為 Train the Best Sentence Embedding Model Ever with 1B Training Pairs 項目的一部分進行開發。我們藉助高效的硬件基礎設施來運行該項目，使用了 7 個 TPU v3 - 8，並得到了谷歌 Flax、JAX 和雲團隊成員在高效深度學習框架方面的支持。

預期用途

我們的模型旨在用作句子和短段落編碼器。給定輸入文本，它會輸出一個捕獲語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。

默認情況下，輸入文本長度超過 384 個詞塊時會被截斷。

訓練過程

預訓練

我們使用了預訓練的 microsoft/mpnet-base 模型。有關預訓練過程的更多詳細信息，請參考該模型的卡片。

微調

我們使用對比目標對模型進行微調。具體來說，我們計算批次中每個可能句子對的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在 TPU v3 - 8 上訓練模型。訓練共進行 100k 步，批次大小為 1024（每個 TPU 核心 128）。我們使用 500 步的學習率預熱。序列長度限制為 128 個標記。我們使用 AdamW 優化器，學習率為 2e - 5。完整的訓練腳本可在當前倉庫中找到：train_script.py。

訓練數據

我們使用多個數據集的組合來微調模型。句子對的總數超過 10 億。我們根據加權概率對每個數據集進行採樣，具體配置詳情見 data_config.json 文件。

數據集	論文	訓練元組數量
Reddit comments (2015 - 2018)	論文	726,484,430
S2ORC 引用對（摘要）	論文	116,288,806
WikiAnswers 重複問題對	論文	77,427,422
PAQ（問題，答案）對	論文	64,371,441
S2ORC 引用對（標題）	論文	52,603,982
S2ORC（標題，摘要）	論文	41,769,185
Stack Exchange（標題，正文）對	-	25,316,456
Stack Exchange（標題 + 正文，答案）對	-	21,396,559
Stack Exchange（標題，答案）對	-	21,396,559
MS MARCO 三元組	論文	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Yahoo Answers（標題，答案）	論文	1,198,260
Code Search	-	1,151,414
COCO 圖像描述	論文	828,395
SPECTER 引用三元組	論文	684,100
Yahoo Answers（問題，答案）	論文	681,164
Yahoo Answers（標題，問題）	論文	659,896
SearchQA	論文	582,261
Eli5	論文	325,475
Flickr 30k	論文	317,695
Stack Exchange 重複問題（標題）		304,525
AllNLI (SNLI 和 MultiNLI)	論文 SNLI，論文 MultiNLI	277,230
Stack Exchange 重複問題（正文）		250,519
Stack Exchange 重複問題（標題 + 正文）		250,460
Sentence Compression	論文	180,000
Wikihow	論文	128,542
Altlex	論文	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	論文	102,225
Natural Questions (NQ)	論文	100,231
SQuAD2.0	論文	87,599
TriviaQA	-	73,346
總計		1,170,060,424