all_datasets_v3_roberta-large開源模型 - 免費生成語義豐富的句子向量表示

首頁

All Datasets V3 Roberta Large

由flax-sentence-embeddings開發

基於RoBERTa-large的句子嵌入模型，通過自監督對比學習在10億句對數據集上訓練，用於生成語義豐富的句子向量表示

文本嵌入

PyTorch

英語#十億級句對訓練 #對比學習優化 #語義檢索專用

下載量 987

發布時間 : 3/2/2022

模型概述

該模型是一個句子編碼器，能夠將輸入句子轉換為蘊含語義信息的向量表示，適用於信息檢索、文本聚類和句子相似度計算等任務

模型特點

大規模對比學習訓練

在超過10億句對的超大規模數據集上進行對比學習訓練，優化句子表示能力

多源數據整合

整合了來自23個不同來源的數據集，涵蓋問答、搜索、學術引用等多種文本類型

高效硬件優化

使用7塊TPU v3-8芯片訓練，獲得Google團隊在JAX/Flax框架上的優化支持

模型能力

句子向量化

語義相似度計算

信息檢索

文本聚類

使用案例

信息檢索

文檔搜索

將查詢語句和文檔轉換為向量，實現基於語義的文檔檢索

文本分析

句子相似度計算

計算兩個句子之間的語義相似度分數

文本聚類

將相似語義的文本自動分組

🚀 句子相似度模型

本項目旨在使用自監督對比學習目標，在超大規模的句子級數據集上訓練句子嵌入模型。通過微調預訓練模型，該項目能夠輸出捕捉句子語義信息的向量，可用於信息檢索、聚類或句子相似度任務。

🚀 快速開始

本模型旨在用作句子編碼器。給定輸入句子，它會輸出一個捕捉句子語義信息的向量。該句子向量可用於信息檢索、聚類或句子相似度任務。

✨ 主要特性

大規模數據集訓練：使用超過10億個句子對的數據集進行微調，確保模型能夠學習到豐富的語義信息。
高效硬件支持：藉助7個TPU v3-8進行訓練，並得到Google的Flax、JAX和雲團隊成員關於高效深度學習框架的支持。
廣泛的應用場景：輸出的句子向量可用於信息檢索、聚類或句子相似度任務。

📦 安裝指南

使用此模型獲取給定文本的特徵，你可以使用 SentenceTransformers 庫。

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('flax-sentence-embeddings/all_datasets_v3_roberta-large')
text = "Replace me by any text you'd like."
text_embbedding = model.encode(text)
# array([-0.01559514,  0.04046123,  0.1317083 ,  0.00085931,  0.04585106,
#        -0.05607086,  0.0138078 ,  0.03569756,  0.01420381,  0.04266302 ...],
#        dtype=float32)

🔧 技術細節

模型訓練

項目使用自監督對比學習目標，在大規模句子級數據集上訓練句子嵌入模型。具體步驟如下：

預訓練模型：使用預訓練的 roberta-large 模型。
微調模型：在超過10億個句子對的數據集上進行微調，使用對比學習目標，即給定一對句子中的一個，模型應預測出在數據集中實際與之配對的句子。

超參數設置

訓練步數：540k步
批次大小：1024（每個TPU核心128）
學習率預熱：500
序列長度：128個標記
優化器：AdamW，學習率為2e-5

訓練數據

模型使用多個數據集的組合進行微調，總句子對數超過10億。每個數據集的採樣概率在 data_config.json 文件中詳細配置。

數據集	論文	訓練元組數
GOOAQ: Open Question Answering with Diverse Answer Types	論文	3,012,496
Stack Exchange	-	364,001
Flickr 30k	論文	317,695
[COCO 2020](COCO 2020)	論文	828,395
Code Search	-	1,151,414
TriviaqQA	-	73,346
SQuAD2.0	論文	87,599
Natural Questions (NQ)	論文	100,231
Simple Wikipedia	論文	102,225
Quora Question Pairs	-	103,663
Altlex	論文	112,696
Wikihow	論文	128,542
Sentence Compression	論文	180,000
AllNLI (SNLI 和 MultiNLI	論文 SNLI，論文 MultiNLI	277,230
Eli5	論文	325,475
SPECTER	論文	684,100
S2ORC 標題/摘要	論文	41,769,185
S2ORC 引用/引用	論文	52,603,982
S2ORC 引用/摘要	論文	116,288,806
PAQ	論文	64,371,441
WikiAnswers	論文	77,427,422
SearchQA	-	582,261
Yahoo Answers 標題/答案	論文	1,198,260
Yahoo Answers 標題/問題	論文	659,896
Yahoo Answers 問題/答案	論文	681,164
MS MARCO	論文	9,144,553
Reddit conversationnal	論文	726,484,430
總計		1,097,953,922