all-MiniLM-L6-v2-128dim开源句子嵌入模型 - 实现语义搜索与相似度计算

首页

All MiniLM L6 V2 128dim

由 freedomfrier 开发

这是一个基于MiniLM架构的句子嵌入模型，可将文本映射到384维向量空间，适用于语义搜索和句子相似度计算等任务。

文本嵌入

PyTorch

英语开源协议:Apache-2.0 #句子嵌入 #语义搜索 #多数据集训练

下载量 1,377

发布时间 : 12/21/2022

模型简介

该模型是一个句子转换器，能够将句子和段落转换为384维的密集向量表示，适用于聚类、语义搜索等自然语言处理任务。

模型特点

高效向量表示

将文本转换为384维的紧凑向量表示，平衡了计算效率和语义表达能力。

大规模训练

在超过10亿句子对的数据集上进行训练，涵盖多种领域和任务。

对比学习

采用对比学习目标进行微调，优化了句子对的语义相似度计算能力。

模型能力

句子嵌入

语义相似度计算

信息检索

文本聚类

问答系统支持

使用案例

信息检索

文档搜索

将查询和文档转换为向量，通过相似度计算实现高效检索。

提高搜索相关性和效率

问答系统

问答匹配

计算问题和候选答案之间的语义相似度。

提升问答系统的准确率

文本分析

文本聚类

将相似内容的文档自动分组。

实现无监督的文档组织

🚀 all-MiniLM-L6-v2

这是一个 sentence-transformers 模型，它能将句子和段落映射到一个 384 维的密集向量空间，可用于聚类或语义搜索等任务。

🚀 快速开始

✨ 主要特性

能够将句子和段落映射到 384 维的密集向量空间。
适用于聚类、语义搜索等任务。

📦 安装指南

如果你已经安装了 sentence-transformers，使用这个模型会变得很简单：

pip install -U sentence-transformers

💻 使用示例

基础用法（Sentence-Transformers）

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
print(embeddings)

高级用法（HuggingFace Transformers）

如果没有安装 sentence-transformers，你可以这样使用这个模型：首先，将输入数据传入变压器模型，然后对上下文相关的词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

📚 详细文档

评估结果

要对这个模型进行自动评估，请查看 Sentence Embeddings Benchmark：https://seb.sbert.net

🔧 技术细节

背景

该项目旨在使用自监督对比学习目标，在非常大的句子级数据集上训练句子嵌入模型。我们使用了预训练的 nreimers/MiniLM-L6-H384-uncased 模型，并在一个包含 10 亿个句子对的数据集上进行了微调。我们采用了对比学习目标：给定一对句子中的一个句子，模型应该从一组随机采样的其他句子中预测出在数据集中实际与之配对的句子。

我们是在由 Hugging Face 组织的 Community week using JAX/Flax for NLP & CV 期间开发了这个模型。该模型是项目 Train the Best Sentence Embedding Model Ever with 1B Training Pairs 的一部分。我们借助高效的硬件基础设施来运行该项目，包括 7 个 TPU v3 - 8，同时还得到了谷歌 Flax、JAX 和云团队成员在高效深度学习框架方面的支持。

预期用途

我们的模型旨在用作句子和短段落编码器。给定输入文本，它会输出一个捕获语义信息的向量。该句子向量可用于信息检索、聚类或句子相似度任务。默认情况下，输入文本中超过 256 个词块的部分将被截断。

训练过程

预训练

我们使用了预训练的 nreimers/MiniLM-L6-H384-uncased 模型。有关预训练过程的更多详细信息，请参考该模型的卡片。

微调

我们使用对比目标对模型进行微调。具体来说，我们计算批次中每对可能句子的余弦相似度，然后通过与真实对进行比较来应用交叉熵损失。

超参数

我们在 TPU v3 - 8 上训练模型。使用 1024 的批次大小（每个 TPU 核心 128）进行 100k 步的训练。我们使用 500 的学习率预热。序列长度限制为 128 个标记。我们使用 AdamW 优化器，学习率为 2e - 5。完整的训练脚本可在当前仓库中找到：train_script.py。

训练数据

我们使用多个数据集的组合来微调模型。句子对的总数超过 10 亿个。我们根据加权概率对每个数据集进行采样，具体配置在 data_config.json 文件中详细说明。

数据集	论文	训练元组数量
Reddit comments (2015 - 2018)	paper	726,484,430
S2ORC Citation pairs (Abstracts)	paper	116,288,806
WikiAnswers Duplicate question pairs	paper	77,427,422
PAQ (Question, Answer) pairs	paper	64,371,441
S2ORC Citation pairs (Titles)	paper	52,603,982
S2ORC (Title, Abstract)	paper	41,769,185
Stack Exchange (Title, Body) pairs	-	25,316,456
Stack Exchange (Title + Body, Answer) pairs	-	21,396,559
Stack Exchange (Title, Answer) pairs	-	21,396,559
MS MARCO triplets	paper	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	paper	3,012,496
Yahoo Answers (Title, Answer)	paper	1,198,260
Code Search	-	1,151,414
COCO Image captions	paper	828,395
SPECTER citation triplets	paper	684,100
Yahoo Answers (Question, Answer)	paper	681,164
Yahoo Answers (Title, Question)	paper	659,896
SearchQA	paper	582,261
Eli5	paper	325,475
Flickr 30k	paper	317,695
Stack Exchange Duplicate questions (titles)		304,525
AllNLI (SNLI and MultiNLI	paper SNLI, paper MultiNLI	277,230
Stack Exchange Duplicate questions (bodies)		250,519
Stack Exchange Duplicate questions (titles + bodies)		250,460
Sentence Compression	paper	180,000
Wikihow	paper	128,542
Altlex	paper	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	paper	102,225
Natural Questions (NQ)	paper	100,231
SQuAD2.0	paper	87,599
TriviaQA	-	73,346
总计		1,170,060,424