all-mpnet-base-v2-feature-extraction開源模型 - 實現文本映射，助力語義搜索與相似度任務

首頁

All Mpnet Base V2 Feature Extraction

由guidecare開發

基於MPNet架構的句子嵌入模型，可將文本映射到768維向量空間，適用於語義搜索和文本相似度任務

文本嵌入

PyTorch

英語開源協議:Apache-2.0 #句子向量化 #語義相似度 #對比學習

下載量 4,539

發布時間 : 6/23/2022

模型概述

這是一個句子轉換器模型，能夠將句子和段落轉換為768維的密集向量表示，支持聚類、語義搜索等自然語言處理任務。

模型特點

高精度語義編碼

在10億句對數據集上微調，能準確捕捉句子語義信息

768維稠密向量

輸出高維向量表示，適合下游機器學習任務

大規模預訓練

基於microsoft/mpnet-base模型，在超大規模數據集上微調

模型能力

文本向量化

語義相似度計算

信息檢索

文本聚類

句子級特徵提取

使用案例

信息檢索

文檔搜索

將查詢和文檔轉換為向量後計算相似度

實現基於語義而非關鍵詞的搜索

文本分析

文本聚類

對大量文本進行自動分組

發現文本集合中的主題分佈

🚀 all-mpnet-base-v2克隆版

這是一個 sentence-transformers 模型：它能將句子和段落映射到一個 768 維的密集向量空間，可用於聚類或語義搜索等任務。

此模型與官方模型的唯一區別在於，本 README.md 文件中修改了 pipeline_tag: feature-extraction。

🚀 快速開始

✨ 主要特性

能將句子和段落映射到 768 維的密集向量空間。
可用於聚類、語義搜索等任務。

📦 安裝指南

如果你安裝了 sentence-transformers，使用該模型會很方便：

pip install -U sentence-transformers

💻 使用示例

基礎用法

使用 sentence-transformers 庫時：

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-mpnet-base-v2')
embeddings = model.encode(sentences)
print(embeddings)

高級用法

不使用 sentence-transformers 庫時，你可以這樣使用該模型：首先，將輸入數據傳入 Transformer 模型，然後對上下文詞嵌入應用正確的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-mpnet-base-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-mpnet-base-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 詳細文檔

評估結果

要對該模型進行自動評估，請參考 Sentence Embeddings Benchmark：https://seb.sbert.net

背景

該項目旨在使用自監督對比學習目標，在非常大的句子級數據集上訓練句子嵌入模型。我們使用了預訓練的 microsoft/mpnet-base 模型，並在一個包含 10 億個句子對的數據集上進行了微調。我們採用對比學習目標：給定一對句子中的一個句子，模型應從一組隨機採樣的其他句子中預測出在數據集中實際與之配對的句子。

我們是在 Hugging Face 組織的 Community week using JAX/Flax for NLP & CV 期間開發此模型的。我們將其作為 Train the Best Sentence Embedding Model Ever with 1B Training Pairs 項目的一部分進行開發。我們藉助高效的硬件基礎設施來運行該項目：7 個 TPU v3 - 8，以及谷歌 Flax、JAX 和雲團隊成員在高效深度學習框架方面的指導。

預期用途

我們的模型旨在用作句子和短段落編碼器。給定輸入文本，它會輸出一個捕獲語義信息的向量。句子向量可用於信息檢索、聚類或句子相似度任務。

默認情況下，長度超過 384 個詞塊的輸入文本會被截斷。

訓練過程

預訓練

我們使用了預訓練的 microsoft/mpnet-base 模型。有關預訓練過程的更多詳細信息，請參考該模型的卡片。

微調

我們使用對比目標對模型進行微調。形式上，我們計算批次中每個可能的句子對的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在 TPU v3 - 8 上訓練模型。我們使用 1024 的批量大小（每個 TPU 核心 128）進行了 100k 步的訓練。我們使用了 500 的學習率預熱。序列長度限制為 128 個標記。我們使用了 AdamW 優化器，學習率為 2e - 5。完整的訓練腳本可在當前倉庫中找到：train_script.py。

訓練數據

我們使用多個數據集的組合來微調模型。句子對的總數超過 10 億。我們根據加權概率對每個數據集進行採樣，具體配置在 data_config.json 文件中詳細說明。

數據集	論文	訓練元組數量
Reddit comments (2015 - 2018)	paper	726,484,430
S2ORC Citation pairs (Abstracts)	paper	116,288,806
WikiAnswers Duplicate question pairs	paper	77,427,422
PAQ (Question, Answer) pairs	paper	64,371,441
S2ORC Citation pairs (Titles)	paper	52,603,982
S2ORC (Title, Abstract)	paper	41,769,185
Stack Exchange (Title, Body) pairs	-	25,316,456
Stack Exchange (Title + Body, Answer) pairs	-	21,396,559
Stack Exchange (Title, Answer) pairs	-	21,396,559
MS MARCO triplets	paper	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	paper	3,012,496
Yahoo Answers (Title, Answer)	paper	1,198,260
Code Search	-	1,151,414
COCO Image captions	paper	828,395
SPECTER citation triplets	paper	684,100
Yahoo Answers (Question, Answer)	paper	681,164
Yahoo Answers (Title, Question)	paper	659,896
SearchQA	paper	582,261
Eli5	paper	325,475
Flickr 30k	paper	317,695
Stack Exchange Duplicate questions (titles)		304,525
AllNLI (SNLI and MultiNLI	paper SNLI, paper MultiNLI	277,230
Stack Exchange Duplicate questions (bodies)		250,519
Stack Exchange Duplicate questions (titles + bodies)		250,460
Sentence Compression	paper	180,000
Wikihow	paper	128,542
Altlex	paper	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	paper	102,225
Natural Questions (NQ)	paper	100,231
SQuAD2.0	paper	87,599
TriviaQA	-	73,346
總計		1,170,060,424