multi-qa_v1-distilbert-mean_cos开源模型 - 优化问答相似度任务，精准对比答案

首页

Multi Qa V1 Distilbert Mean Cos

由 flax-sentence-embeddings 开发

基于DistilBERT的句子嵌入模型，专为问答相似度任务优化，通过对比学习在多种问答数据集上微调

文本嵌入

PyTorch

#问答语义匹配 #高效句子嵌入 #多源数据训练

下载量 2,156

发布时间 : 3/2/2022

模型简介

该模型能够将句子编码为语义向量，适用于语义搜索、聚类和句子相似度计算等任务

模型特点

高效轻量级架构

基于DistilBERT模型，在保持性能的同时减少40%参数量

问答场景优化

专门针对问答对数据进行训练，能有效捕捉问题和答案间的语义关系

大规模训练数据

使用超过10亿训练对的数据集进行训练，涵盖多种问答数据集

均值池化策略

采用隐藏状态均值池化生成句子嵌入，平衡性能和计算效率

模型能力

生成句子嵌入

计算句子相似度

语义搜索

文本聚类

问答匹配

使用案例

信息检索

问答系统

匹配用户问题与知识库中的最佳答案

提高问答匹配准确率

语义搜索

实现基于语义而非关键词的文档检索

提升搜索结果相关性

内容分析

相似问题识别

识别论坛或社区中的相似问题

减少重复问题，提高社区管理效率

🚀 multi-qa_v1-distilbert-mean_cos

SentenceTransformers 是一套模型和框架，可根据给定数据训练并生成句子嵌入向量。生成的句子嵌入向量可用于聚类、语义搜索等任务。本模型使用预训练的 distilbert-base-uncased 模型，并通过孪生网络设置和对比学习目标进行训练。我们使用 StackExchange 的问答对作为训练数据，使模型在问答嵌入相似度方面表现更稳健。对于此模型，我们使用隐藏状态的均值池化作为句子嵌入。

本模型由 Hugging Face 组织的 JAX/Flax 用于 NLP 和 CV 的社区周期间开发。该模型是使用 10 亿训练对训练有史以来最好的句子嵌入模型项目的一部分。我们借助高效的硬件基础设施（7 个 TPU v3 - 8）以及谷歌 Flax、JAX 和云团队成员在高效深度学习框架方面的帮助来运行该项目。

🚀 快速开始

本模型旨在用作搜索引擎的句子编码器。给定输入句子，它将输出一个捕获句子语义信息的向量。该句子向量可用于语义搜索、聚类或句子相似度任务。

✨ 主要特性

作为句子编码器，能输出捕获句子语义信息的向量。
适用于语义搜索、聚类或句子相似度等任务。

📦 安装指南

此部分原文档未提及具体安装步骤，跳过。

💻 使用示例

基础用法

以下是如何使用 SentenceTransformers 库来获取给定文本特征的示例：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/multi-qa_v1-distilbert-mean_cos')
text = "Replace me by any question / answer you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 详细文档

预期用途

我们的模型旨在用作搜索引擎的句子编码器。给定输入句子，它输出一个捕获句子语义信息的向量。该句子向量可用于语义搜索、聚类或句子相似度任务。

训练过程

预训练

我们使用预训练的 distilbert-base-uncased 模型。有关预训练过程的更多详细信息，请参考该模型的卡片。

微调

我们使用对比目标对模型进行微调。具体来说，我们计算批次中每个可能句子对的余弦相似度，然后通过与真实对进行比较来应用交叉熵损失。

超参数

我们在 TPU v3 - 8 上训练模型。我们使用 1024 的批次大小（每个 TPU 核心 128）进行 80k 步的训练。我们使用 500 的学习率预热。序列长度限制为 128 个标记。我们使用 AdamW 优化器，学习率为 2e - 5。完整的训练脚本可在当前存储库中找到。

训练数据

我们使用多个 Stackexchange 问答数据集的串联来微调我们的模型。还使用了 MSMARCO、NQ 等问答数据集。

属性	详情
模型类型	基于预训练的 distilbert-base-uncased 模型微调的句子编码器
训练数据	多个 Stackexchange 问答数据集（如 Stack Exchange QA - Title & Answer、Stack Exchange 等）、MSMARCO、NQ 等问答数据集

数据集	论文	训练元组数量
Stack Exchange QA - Title & Answer	-	4,750,619
Stack Exchange	-	364,001
TriviaqQA	-	73,346
SQuAD2.0	paper	87,599
Quora Question Pairs	-	103,663
Eli5	paper	325,475
PAQ	paper	64,371,441
WikiAnswers	paper	77,427,422
MS MARCO	paper	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	paper	3,012,496
Yahoo Answers Question/Answer	paper	681,164
SearchQA	-	582,261
Natural Questions (NQ)	paper	100,231

🔧 技术细节

本模型使用预训练的 distilbert-base-uncased 模型，通过孪生网络设置和对比学习目标进行训练。使用 StackExchange 的问答对作为训练数据，以提高模型在问答嵌入相似度方面的性能。在微调过程中，计算批次中句子对的余弦相似度并应用交叉熵损失。使用 AdamW 优化器和特定的超参数（如学习率、批次大小等）在 TPU v3 - 8 上进行训练。