all-mpnet-base-v2開源句子嵌入模型 - 免費用於語義搜索和聚類任務

首頁

All Mpnet Base V2

由obrizum開發

這是一個基於MPNet架構的句子嵌入模型，能將句子和段落映射到768維的密集向量空間，適用於語義搜索、聚類等任務。

文本嵌入

PyTorch

英語開源協議:Apache-2.0 #句子嵌入 #語義搜索 #對比學習

下載量 34

發布時間 : 5/5/2022

模型概述

該模型是一個句子轉換器模型，專門用於生成句子和段落的密集向量表示。它基於microsoft/mpnet-base模型，在超過10億句子對的數據集上進行了微調，採用對比學習目標優化。

模型特點

高維語義表示

能將句子和段落映射到768維的密集向量空間，有效捕獲語義信息

大規模訓練

在超過10億句子對的數據集上進行微調，涵蓋多種領域和任務

對比學習優化

採用對比學習目標訓練，使相似句子在向量空間中更接近

高效推理

支持快速計算句子嵌入，適合即時應用場景

模型能力

句子向量化

語義相似度計算

信息檢索

文本聚類

特徵提取

使用案例

信息檢索

語義搜索

使用句子嵌入構建搜索引擎，實現基於語義而非關鍵詞的搜索

能更準確地匹配用戶查詢意圖

文本分析

文檔聚類

將相似文檔自動分組

幫助發現文檔集合中的主題結構

問答系統

問答匹配

計算問題與候選答案的語義相似度

提高問答系統的準確率

🚀 all-mpnet-base-v2

這是一個句子轉換器模型，它可以將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。

🚀 快速開始

安裝 `sentence-transformers` 庫

pip install -U sentence-transformers

使用示例

基礎用法

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('obrizum/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

若未安裝 sentence-transformers，可按以下方式使用該模型：首先，將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用合適的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)

# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('obrizum/all-mpnet-base-v2')
model = AutoModel.from_pretrained('obrizum/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)
# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])
# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)
print("Sentence embeddings:")
print(sentence_embeddings)

✨ 主要特性

能夠將句子和段落映射到 768 維的密集向量空間。
適用於聚類、語義搜索等多種自然語言處理任務。

📚 詳細文檔

評估結果

若要對該模型進行自動評估，請參考 句子嵌入基準測試：https://seb.sbert.net

背景

該項目旨在使用自監督對比學習目標，在非常大的句子級數據集上訓練句子嵌入模型。我們使用了預訓練的 microsoft/mpnet-base 模型，並在一個包含 10 億個句子對的數據集上進行了微調。我們採用了對比學習目標：給定一對句子中的一個句子，模型應該從一組隨機採樣的其他句子中預測出在數據集中實際與之配對的句子。

該模型是在由 Hugging Face 組織的使用 JAX/Flax 進行自然語言處理和計算機視覺的社區周期間開發的。我們將其作為使用 10 億個訓練對訓練有史以來最好的句子嵌入模型項目的一部分進行開發。我們藉助高效的硬件基礎設施來運行該項目，使用了 7 個 TPU v3 - 8，並得到了谷歌 Flax、JAX 和雲團隊成員在高效深度學習框架方面的支持。

預期用途

我們的模型旨在用作句子和短段落編碼器。給定輸入文本，它會輸出一個捕獲語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。默認情況下，輸入文本長度超過 384 個詞塊時會被截斷。

訓練過程

預訓練

我們使用了預訓練的 microsoft/mpnet-base 模型。有關預訓練過程的更多詳細信息，請參考該模型的卡片。

微調

我們使用對比目標對模型進行微調。具體來說，我們計算批次中每對可能句子的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在 TPU v3 - 8 上訓練模型。使用 1024 的批次大小（每個 TPU 核心 128）進行了 100k 步的訓練。我們使用了 500 的學習率預熱。序列長度限制為 128 個標記。我們使用了 AdamW 優化器，學習率為 2e - 5。完整的訓練腳本可在當前倉庫中找到：train_script.py。

訓練數據

我們使用多個數據集的組合來微調模型。句子對的總數超過 10 億個。我們根據加權概率對每個數據集進行採樣，具體配置詳見 data_config.json 文件。

數據集	論文	訓練元組數量
Reddit 評論 (2015 - 2018)	論文	726,484,430
S2ORC 引用對 (摘要)	論文	116,288,806
WikiAnswers 重複問題對	論文	77,427,422
PAQ (問題, 答案) 對	論文	64,371,441
S2ORC 引用對 (標題)	論文	52,603,982
S2ORC (標題, 摘要)	論文	41,769,185
Stack Exchange (標題, 正文) 對	-	25,316,456
Stack Exchange (標題 + 正文, 答案) 對	-	21,396,559
Stack Exchange (標題, 答案) 對	-	21,396,559
MS MARCO 三元組	論文	9,144,553
GOOAQ: 具有多種答案類型的開放問答	論文	3,012,496
Yahoo Answers (標題, 答案)	論文	1,198,260
代碼搜索	-	1,151,414
COCO 圖像描述	論文	828,395
SPECTER 引用三元組	論文	684,100
Yahoo Answers (問題, 答案)	論文	681,164
Yahoo Answers (標題, 問題)	論文	659,896
SearchQA	論文	582,261
Eli5	論文	325,475
Flickr 30k	論文	317,695
Stack Exchange 重複問題 (標題)	-	304,525
AllNLI (SNLI 和 MultiNLI	論文 SNLI, 論文 MultiNLI	277,230
Stack Exchange 重複問題 (正文)	-	250,519
Stack Exchange 重複問題 (標題 + 正文)	-	250,460
句子壓縮	論文	180,000
Wikihow	論文	128,542
Altlex	論文	112,696
Quora 問題三元組	-	103,663
簡單維基百科	論文	102,225
自然問題 (NQ)	論文	100,231
SQuAD2.0	論文	87,599
TriviaQA	-	73,346
總計	-	1,170,060,424