all_datasets_v3_MiniLM-L12開源句子嵌入模型 - 生成高質量語義向量表示

首頁

All Datasets V3 MiniLM L12

由flax-sentence-embeddings開發

基於MiniLM-L12架構的句子嵌入模型，通過對比學習在超10億句對數據集上訓練，可生成高質量的語義向量表示

文本嵌入

PyTorch

英語#十億級句對訓練 #對比學習優化 #多源數據融合

下載量 887

發布時間 : 3/2/2022

模型概述

該模型是專為句子級語義理解設計的編碼器，可將輸入文本轉換為384維向量表示，適用於信息檢索、文本相似度計算等場景

模型特點

大規模對比學習訓練

在包含10億句對的多樣化數據集上進行對比學習訓練，增強模型語義理解能力

高效輕量架構

基於MiniLM-L12的輕量級Transformer架構，在保持性能的同時降低計算資源需求

多源數據融合

整合來自23個不同領域的數據源，使模型具備廣泛的語義覆蓋能力

模型能力

文本向量化

語義相似度計算

信息檢索增強

文本聚類分析

使用案例

信息檢索

搜索引擎結果優化

通過語義匹配提升搜索結果相關性

可識別查詢意圖，返回更符合用戶需求的文檔

智能客服

問題相似度匹配

識別用戶問題與知識庫問題的語義相似度

提高自動問答系統的準確率

🚀 句子相似度模型

本項目旨在使用自監督對比學習目標，在超大型句子級數據集上訓練句子嵌入模型。通過該模型，能夠將輸入的句子轉化為向量，捕捉句子的語義信息，可廣泛應用於信息檢索、聚類或句子相似度任務等領域。

🚀 快速開始

本模型可作為句子編碼器使用。給定輸入句子，它將輸出一個捕獲句子語義信息的向量。句子向量可用於信息檢索、聚類或句子相似度任務。

✨ 主要特性

大規模數據訓練：使用超過10億個句子對的數據集進行微調，使模型能學習到豐富的語義信息。
高效架構：基於預訓練的MiniLM-L12模型進行微調，結合高效的對比學習目標，在保證性能的同時提高訓練效率。
多領域適用性：訓練數據涵蓋了多種不同類型的數據集，包括問答、圖像描述、代碼搜索等，使模型具有廣泛的適用性。

📦 安裝指南

使用此模型前，需安裝SentenceTransformers庫，可通過以下命令進行安裝：

pip install sentence-transformers

💻 使用示例

基礎用法

以下是如何使用SentenceTransformers庫來獲取給定文本特徵的示例代碼：

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_MiniLM-L12')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 詳細文檔

訓練過程

預訓練

我們使用了預訓練的MiniLM-L12模型。有關預訓練過程的更多詳細信息，請參考該模型的卡片。

微調

我們使用對比目標對模型進行微調。具體來說，我們計算批次中每個可能句子對的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在TPU v3 - 8上訓練模型。訓練共進行540k步，批次大小為1024（每個TPU核心128）。學習率預熱步數為500，序列長度限制為128個標記。我們使用AdamW優化器，學習率為2e - 5。完整的訓練腳本可在當前倉庫中獲取。

訓練數據

我們使用多個數據集的組合來微調模型。句子對的總數超過10億。每個數據集的採樣概率在data_config.json文件中有詳細配置。

數據集	論文	訓練元組數量
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	論文	317,695
[COCO 2020](COCO 2020)	論文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	論文	87,599
Natural Questions (NQ)	論文	100,231
Simple Wikipedia	論文	102,225
Quora Question Pairs	-	103,663
Altlex	論文	112,696
Wikihow	論文	128,542
Sentence Compression	論文	180,000
AllNLI (SNLI 和 MultiNLI	論文 SNLI，論文 MultiNLI	277,230
Eli5	論文	325,475
SPECTER	論文	684,100
S2ORC 標題/摘要	論文	41,769,185
S2ORC 引用/引用	論文	52,603,982
S2ORC 引用/摘要	論文	116,288,806
PAQ	論文	64,371,441
WikiAnswers	論文	77,427,422
SearchQA	-	582,261
Yahoo Answers 標題/答案	論文	1,198,260
Yahoo Answers 標題/問題	論文	659,896
Yahoo Answers 問題/答案	論文	681,164
MS MARCO	論文	9,144,553
Reddit conversationnal	論文	726,484,430
總計		1,097,953,922