multi-qa_v1-distilbert-mean_cos開源模型 - 優化問答相似度任務，精準對比答案

首頁

Multi Qa V1 Distilbert Mean Cos

由flax-sentence-embeddings開發

基於DistilBERT的句子嵌入模型，專為問答相似度任務優化，通過對比學習在多種問答數據集上微調

文本嵌入

PyTorch

#問答語義匹配 #高效句子嵌入 #多源數據訓練

下載量 2,156

發布時間 : 3/2/2022

模型概述

該模型能夠將句子編碼為語義向量，適用於語義搜索、聚類和句子相似度計算等任務

模型特點

高效輕量級架構

基於DistilBERT模型，在保持性能的同時減少40%參數量

問答場景優化

專門針對問答對數據進行訓練，能有效捕捉問題和答案間的語義關係

大規模訓練數據

使用超過10億訓練對的數據集進行訓練，涵蓋多種問答數據集

均值池化策略

採用隱藏狀態均值池化生成句子嵌入，平衡性能和計算效率

模型能力

生成句子嵌入

計算句子相似度

語義搜索

文本聚類

問答匹配

使用案例

信息檢索

問答系統

匹配用戶問題與知識庫中的最佳答案

提高問答匹配準確率

語義搜索

實現基於語義而非關鍵詞的文檔檢索

提升搜索結果相關性

內容分析

相似問題識別

識別論壇或社區中的相似問題

減少重複問題，提高社區管理效率

🚀 multi-qa_v1-distilbert-mean_cos

SentenceTransformers 是一套模型和框架，可根據給定數據訓練並生成句子嵌入向量。生成的句子嵌入向量可用於聚類、語義搜索等任務。本模型使用預訓練的 distilbert-base-uncased 模型，並通過孿生網絡設置和對比學習目標進行訓練。我們使用 StackExchange 的問答對作為訓練數據，使模型在問答嵌入相似度方面表現更穩健。對於此模型，我們使用隱藏狀態的均值池化作為句子嵌入。

本模型由 Hugging Face 組織的 JAX/Flax 用於 NLP 和 CV 的社區周期間開發。該模型是使用 10 億訓練對訓練有史以來最好的句子嵌入模型項目的一部分。我們藉助高效的硬件基礎設施（7 個 TPU v3 - 8）以及谷歌 Flax、JAX 和雲團隊成員在高效深度學習框架方面的幫助來運行該項目。

🚀 快速開始

本模型旨在用作搜索引擎的句子編碼器。給定輸入句子，它將輸出一個捕獲句子語義信息的向量。該句子向量可用於語義搜索、聚類或句子相似度任務。

✨ 主要特性

作為句子編碼器，能輸出捕獲句子語義信息的向量。
適用於語義搜索、聚類或句子相似度等任務。

📦 安裝指南

此部分原文檔未提及具體安裝步驟，跳過。

💻 使用示例

基礎用法

以下是如何使用 SentenceTransformers 庫來獲取給定文本特徵的示例：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/multi-qa_v1-distilbert-mean_cos')
text = "Replace me by any question / answer you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 詳細文檔

預期用途

我們的模型旨在用作搜索引擎的句子編碼器。給定輸入句子，它輸出一個捕獲句子語義信息的向量。該句子向量可用於語義搜索、聚類或句子相似度任務。

訓練過程

預訓練

我們使用預訓練的 distilbert-base-uncased 模型。有關預訓練過程的更多詳細信息，請參考該模型的卡片。

微調

我們使用對比目標對模型進行微調。具體來說，我們計算批次中每個可能句子對的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在 TPU v3 - 8 上訓練模型。我們使用 1024 的批次大小（每個 TPU 核心 128）進行 80k 步的訓練。我們使用 500 的學習率預熱。序列長度限制為 128 個標記。我們使用 AdamW 優化器，學習率為 2e - 5。完整的訓練腳本可在當前存儲庫中找到。

訓練數據

我們使用多個 Stackexchange 問答數據集的串聯來微調我們的模型。還使用了 MSMARCO、NQ 等問答數據集。

屬性	詳情
模型類型	基於預訓練的 distilbert-base-uncased 模型微調的句子編碼器
訓練數據	多個 Stackexchange 問答數據集（如 Stack Exchange QA - Title & Answer、Stack Exchange 等）、MSMARCO、NQ 等問答數據集

數據集	論文	訓練元組數量
Stack Exchange QA - Title & Answer	-	4,750,619
Stack Exchange	-	364,001
TriviaqQA	-	73,346
SQuAD2.0	paper	87,599
Quora Question Pairs	-	103,663
Eli5	paper	325,475
PAQ	paper	64,371,441
WikiAnswers	paper	77,427,422
MS MARCO	paper	9,144,553
GOOAQ: Open Question Answering with Diverse Answer Types	paper	3,012,496
Yahoo Answers Question/Answer	paper	681,164
SearchQA	-	582,261
Natural Questions (NQ)	paper	100,231

🔧 技術細節

本模型使用預訓練的 distilbert-base-uncased 模型，通過孿生網絡設置和對比學習目標進行訓練。使用 StackExchange 的問答對作為訓練數據，以提高模型在問答嵌入相似度方面的性能。在微調過程中，計算批次中句子對的餘弦相似度並應用交叉熵損失。使用 AdamW 優化器和特定的超參數（如學習率、批次大小等）在 TPU v3 - 8 上進行訓練。