all_datasets_v4_MiniLM-L6開源輕量級模型 - 免費部署助力語義相似度計算與信息檢索

首頁

All Datasets V4 MiniLM L6

由flax-sentence-embeddings開發

基於MiniLM架構的輕量級句子嵌入模型，通過對比學習在10億句對數據集上微調，適用於語義相似度計算和信息檢索任務

文本嵌入

PyTorch

英語#十億級句對訓練 #對比學習優化 #輕量級嵌入

下載量 6,550

發布時間 : 3/2/2022

模型概述

該模型通過自監督對比學習目標訓練，能夠將輸入句子編碼為蘊含語義信息的向量表示，主要用於句子相似度計算、信息檢索和文本聚類等任務

模型特點

大規模對比學習訓練

在超過10億句對的多樣化數據集上進行對比學習微調，增強語義表示能力

輕量級架構

採用6層MiniLM架構，在保持性能的同時減少計算資源需求

多源數據融合

整合30+不同領域數據集(問答、學術論文、社區討論等)，提升模型泛化能力

模型能力

句子向量化

語義相似度計算

信息檢索

文本聚類

語義搜索

使用案例

信息檢索

文檔相似度匹配

計算用戶查詢與文檔庫的語義相似度

可替代傳統關鍵詞匹配方法，實現基於語義的檢索

問答系統

相似問題匹配

在問答社區中自動關聯語義相似的提問

減少重複問題，提升社區運營效率

學術研究

論文推薦

基於論文標題/摘要的語義相似度推薦相關研究

幫助研究者發現跨領域的相關文獻

🚀 句子相似度模型

本項目旨在使用自監督對比學習目標，在超大型句子級數據集上訓練句子嵌入模型。該模型可輸出捕獲句子語義信息的向量，用於信息檢索、聚類或句子相似度任務。

🚀 快速開始

本模型可作為句子編碼器使用。給定輸入句子，它會輸出一個捕獲句子語義信息的向量。這個句子向量可用於信息檢索、聚類或句子相似度任務。

✨ 主要特性

基於自監督對比學習目標，在超大型句子級數據集上訓練。
以預訓練的 MiniLM-L6-H384-uncased 模型為基礎進行微調。
可輸出捕獲句子語義信息的向量，適用於多種自然語言處理任務。

💻 使用示例

基礎用法

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v4_MiniLM-L6')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

📚 詳細文檔

模型描述

本項目旨在使用自監督對比學習目標，在超大型句子級數據集上訓練句子嵌入模型。我們使用了預訓練的 'MiniLM-L6-H384-uncased' 模型，並在 10 億個句子對上進行了微調。我們採用對比學習目標：給定一對句子中的一個，模型應從一組隨機採樣的其他句子中預測出在數據集中實際與之配對的句子。

本模型是在 Hugging Face 組織的使用 JAX/Flax 進行自然語言處理和計算機視覺的社區周期間開發的。它是使用 10 億個訓練對訓練有史以來最好的句子嵌入模型項目的一部分。我們藉助高效的硬件基礎設施來運行該項目：7 個 TPU v3 - 8，以及谷歌的 Flax、JAX 和雲團隊成員在高效深度學習框架方面的支持。

預期用途

我們的模型旨在用作句子編碼器。給定輸入句子，它會輸出一個捕獲句子語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。

訓練過程

預訓練

我們使用預訓練的 'MiniLM-L6-H384-uncased' 模型，它是 'microsoft/MiniLM-L12-H384-uncased' 的 6 層版本，只保留了每隔一層的結構。有關預訓練過程的更多詳細信息，請參考模型卡片。

微調

我們使用對比目標對模型進行微調。具體來說，我們計算批次中每個可能句子對的餘弦相似度，然後通過與真實對進行比較來應用交叉熵損失。

超參數

我們在 TPU v3 - 8 上訓練模型。使用 1024 的批次大小（每個 TPU 核心 128），訓練 540k 步。我們使用 500 的學習率預熱。序列長度限制為 128 個標記。我們使用 AdamW 優化器，學習率為 2e - 5。完整的訓練腳本可在當前倉庫中找到。

訓練數據

我們使用多個數據集的組合來微調模型。句子對的總數超過 10 億。我們根據加權概率對每個數據集進行採樣，具體配置在 data_config.json 文件中詳細說明。

數據集	論文	訓練元組數量
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	論文	317,695
[COCO 2020](COCO 2020)	論文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	論文	87,599
Natural Questions (NQ)	論文	100,231
Simple Wikipedia	論文	102,225
Quora Question Pairs	-	103,663
Altlex	論文	112,696
Wikihow	論文	128,542
Sentence Compression	論文	180,000
AllNLI (SNLI 和 MultiNLI	論文 SNLI，論文 MultiNLI	277,230
Eli5	論文	325,475
SPECTER	論文	684,100
S2ORC 標題/摘要	論文	41,769,185
S2ORC 引用/引用	論文	52,603,982
S2ORC 引用/摘要	論文	116,288,806
PAQ	論文	64,371,441
WikiAnswers	論文	77,427,422
SearchQA	-	582,261
Yahoo Answers 標題/答案	論文	1,198,260
Yahoo Answers 標題/問題	論文	659,896
Yahoo Answers 問題/答案	論文	681,164
MS MARCO	論文	9,144,553
Reddit conversationnal	論文	726,484,430
總計		1,097,953,922