all - MiniLM - L6 - v2开源轻量级模型 - 免费部署助力语义搜索与聚类

首页

All MiniLM L6 V2

由 optimum 开发

基于MiniLM架构的轻量级句子嵌入模型，可将文本映射到384维向量空间，适用于语义搜索和聚类任务

文本嵌入英语开源协议:Apache-2.0 #句子嵌入 #语义搜索 #英文文本处理

下载量 171.02k

发布时间 : 3/24/2022

模型简介

该模型可将句子和段落转换为384维稠密向量，保留语义信息，适用于信息检索、聚类和句子相似度计算等任务

模型特点

轻量高效

基于MiniLM架构，在保持性能的同时显著减小模型体积

语义保留

能将句子语义信息有效编码到384维向量空间中

大规模训练

在超过10亿句对的数据集上进行对比学习微调

多场景适用

支持信息检索、聚类分析、语义相似度计算等多种NLP任务

模型能力

句子向量化

语义相似度计算

文本聚类

信息检索

特征提取

使用案例

信息检索

语义搜索

通过计算查询与文档的语义相似度实现精准搜索

相比传统关键词搜索能捕捉更深层次的语义关联

文本分析

文档聚类

基于语义相似度对大量文档进行自动分类

可发现文档间的潜在主题关联

问答系统

问题匹配

识别语义相似的问题以提供统一答案

提高问答系统的覆盖率和准确性

🚀 ONNX转换all-MiniLM-L6-v2

本项目主要实现了对sentence-transformers/all-MiniLM-L6-v2模型的ONNX转换。该模型可将句子和段落映射到384维的密集向量空间，适用于聚类或语义搜索等任务。

🚀 快速开始

安装依赖

若已安装sentence-transformers，使用该模型将十分便捷：

pip install -U sentence-transformers

基本使用

使用sentence-transformers库

from sentence_transformers import SentenceTransformer
sentences = ["This is an example sentence", "Each sentence is converted"]

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')
embeddings = model.encode(sentences)
print(embeddings)

使用HuggingFace Transformers库

若未安装sentence-transformers，可按以下方式使用模型：首先将输入传递给Transformer模型，然后对上下文词嵌入应用正确的池化操作。

from transformers import AutoTokenizer, AutoModel
import torch
import torch.nn.functional as F

#Mean Pooling - Take attention mask into account for correct averaging
def mean_pooling(model_output, attention_mask):
    token_embeddings = model_output[0] #First element of model_output contains all token embeddings
    input_mask_expanded = attention_mask.unsqueeze(-1).expand(token_embeddings.size()).float()
    return torch.sum(token_embeddings * input_mask_expanded, 1) / torch.clamp(input_mask_expanded.sum(1), min=1e-9)


# Sentences we want sentence embeddings for
sentences = ['This is an example sentence', 'Each sentence is converted']

# Load model from HuggingFace Hub
tokenizer = AutoTokenizer.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')
model = AutoModel.from_pretrained('sentence-transformers/all-MiniLM-L6-v2')

# Tokenize sentences
encoded_input = tokenizer(sentences, padding=True, truncation=True, return_tensors='pt')

# Compute token embeddings
with torch.no_grad():
    model_output = model(**encoded_input)

# Perform pooling
sentence_embeddings = mean_pooling(model_output, encoded_input['attention_mask'])

# Normalize embeddings
sentence_embeddings = F.normalize(sentence_embeddings, p=2, dim=1)

print("Sentence embeddings:")
print(sentence_embeddings)

评估结果

若需对该模型进行自动评估，可参考Sentence Embeddings Benchmark：https://seb.sbert.net

✨ 主要特性

背景

本项目旨在使用自监督对比学习目标，在超大型句子级数据集上训练句子嵌入模型。我们使用预训练的nreimers/MiniLM-L6-H384-uncased模型，并在包含10亿个句子对的数据集上进行微调。采用对比学习目标，即给定一对句子中的一个，模型应从一组随机采样的其他句子中预测出在数据集中实际与之配对的句子。

该模型由Hugging Face组织的使用JAX/Flax进行NLP和CV的社区周活动期间开发，是使用10亿训练对训练史上最佳句子嵌入模型项目的一部分。项目运行得益于高效的硬件基础设施，包括7个TPU v3 - 8，以及谷歌Flax、JAX和云团队成员在高效深度学习框架方面的支持。

预期用途

该模型旨在用作句子和短段落编码器。给定输入文本，它将输出一个捕获语义信息的向量。该句子向量可用于信息检索、聚类或句子相似度任务。默认情况下，输入文本长度超过256个词块时将被截断。

🔧 技术细节

训练过程

预训练

我们使用预训练的nreimers/MiniLM-L6-H384-uncased模型，更多预训练过程的详细信息请参考该模型的说明文档。

微调

我们使用对比目标对模型进行微调。具体而言，计算批次中每对可能句子的余弦相似度，然后通过与真实对进行比较应用交叉熵损失。

超参数

模型在TPU v3 - 8上训练100k步，批次大小为1024（每个TPU核心128）。学习率预热步数为500，序列长度限制为128个标记。使用AdamW优化器，学习率为2e - 5。完整的训练脚本可在当前仓库中找到：train_script.py。

训练数据

我们使用多个数据集的组合来微调模型，句子对总数超过10亿。每个数据集根据加权概率进行采样，具体配置详见data_config.json文件。

数据集	论文	训练元组数
Reddit comments (2015 - 2018)	论文	726,484,430
S2ORC 引用对 (摘要)	论文	116,288,806
WikiAnswers 重复问题对	论文	77,427,422
PAQ (问题, 答案) 对	论文	64,371,441
S2ORC 引用对 (标题)	论文	52,603,982
S2ORC (标题, 摘要)	论文	41,769,185
Stack Exchange (标题, 正文) 对	-	25,316,456
Stack Exchange (标题 + 正文, 答案) 对	-	21,396,559
Stack Exchange (标题, 答案) 对	-	21,396,559
MS MARCO 三元组	论文	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	论文	3,012,496
Yahoo Answers (标题, 答案)	论文	1,198,260
Code Search	-	1,151,414
COCO 图像描述	论文	828,395
SPECTER 引用三元组	论文	684,100
Yahoo Answers (问题, 答案)	论文	681,164
Yahoo Answers (标题, 问题)	论文	659,896
SearchQA	论文	582,261
Eli5	论文	325,475
Flickr 30k	论文	317,695
Stack Exchange 重复问题 (标题)		304,525
AllNLI (SNLI 和 MultiNLI	论文 SNLI, 论文 MultiNLI	277,230
Stack Exchange 重复问题 (正文)		250,519
Stack Exchange 重复问题 (标题 + 正文)		250,460
Sentence Compression	论文	180,000
Wikihow	论文	128,542
Altlex	论文	112,696
Quora Question Triplets	-	103,663
Simple Wikipedia	论文	102,225
Natural Questions (NQ)	论文	100,231
SQuAD2.0	论文	87,599
TriviaQA	-	73,346
总计		1,170,060,424