trans-encoder-bi-simcse-roberta-large開源模型 - 免費部署助力句子相似度計算

Trans Encoder Bi Simcse Roberta Large

由cambridgeltl開發

基於RoBERTa-large的無監督句子編碼器，通過自蒸餾和互蒸餾技術訓練，適用於句子相似度計算任務。

下載量 17

發布時間 : 3/2/2022

模型概述

該模型是一種雙編碼器架構的句子嵌入模型，專門用於計算句子之間的語義相似度。它採用無監督訓練方式，使用從多個標準數據集採樣的句子對進行訓練。

無監督訓練

使用自蒸餾和互蒸餾技術，無需人工標註數據即可訓練

雙編碼器架構

採用獨立的編碼器處理輸入句子，提高計算效率

基於RoBERTa-large

以強大的預訓練語言模型為基礎，提供高質量的句子表徵

句子嵌入生成

語義相似度計算

無監督學習

信息檢索

文檔相似性搜索

通過計算句子嵌入相似度來檢索相關文檔

問答系統

問題匹配

識別用戶問題與知識庫中問題的語義相似度

屬性	詳情
模型類型	無監督句子編碼器（雙塔編碼器）
訓練數據	從STS2012 - 2016、STS - b和SICK - R中採樣的未標記句子對
基礎模型	princeton - nlp/unsup - simcse - roberta - large
輸入表示	使用`[CLS]`（池化器之前）作為輸入的表示