unsup-simcse-bert-large-uncased開源模型 - 免費生成高質量句子嵌入用於無監督學習

首頁

Unsup Simcse Bert Large Uncased

由princeton-nlp開發

SimCSE是一種簡單的對比學習框架，用於生成高質量的句子嵌入，特別適用於無監督學習場景。

文本嵌入 #句子嵌入對比學習 #無監督語義相似度 #BERT特徵提取

下載量 32

發布時間 : 3/2/2022

模型概述

該模型基於BERT架構，通過對比學習方式優化句子嵌入表示，可用於特徵提取和語義相似度計算等任務。

模型特點

無監督對比學習

採用簡單的對比學習框架，無需標註數據即可訓練高質量的句子嵌入

BERT架構優化

基於BERT-large架構進行優化，保持良好對齊性的同時提升一致性

高效訓練

使用相對較小的批處理量(64)和學習率(1e-5)進行訓練

模型能力

句子嵌入生成

語義相似度計算

文本特徵提取

使用案例

語義分析

語義文本相似度計算

計算兩個句子之間的語義相似度

在STS任務上表現出色

信息檢索

文檔檢索

基於語義相似度的文檔檢索系統

🚀 unsup - simcse - bert - large - uncased模型卡片

本模型主要用於特徵提取任務，由普林斯頓NLP團隊開發並共享。它基於BERT模型，在特徵提取方面有著獨特的優勢。

🚀 快速開始

使用以下代碼開始使用該模型：

點擊展開

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

✨ 主要特性

該模型可用於特徵提取任務。
無監督的SimCSE在英文維基百科隨機採樣的句子上訓練，有監督的SimCSE在MNLI和SNLI數據集組合上訓練。
無監督的SimCSE能有效提高預訓練嵌入的均勻性，同時保持良好的對齊性；結合有監督數據的SimCSE能進一步改善對齊性。

📦 安裝指南

文檔未提供具體安裝步驟，可參考相關GitHub倉庫：GitHub Repo。

📚 詳細文檔

模型詳情

屬性	詳情
開發團隊	普林斯頓NLP團隊
共享團隊	普林斯頓NLP團隊
模型類型	特徵提取
父模型	BERT
更多信息資源	GitHub倉庫，相關論文

使用場景

直接使用

此模型可用於特徵提取任務。

超出適用範圍的使用

該模型不應被用於故意為人們創造敵對或排斥的環境。

偏差、風險和侷限性

大量研究已經探討了語言模型的偏差和公平性問題（例如，參考Sheng等人 (2021) 和 Bender等人 (2021)）。模型生成的預測可能包含針對受保護類別、身份特徵以及敏感、社會和職業群體的令人不安和有害的刻板印象。

建議

用戶（包括直接用戶和下游用戶）應該瞭解該模型的風險、偏差和侷限性。關於進一步的建議，還需要更多信息。

訓練詳情

訓練數據

模型創建者在相關GitHub倉庫中提到：“我們在從英文維基百科隨機採樣的106個句子上訓練無監督的SimCSE，並在MNLI和SNLI數據集的組合（31.4萬個樣本）上訓練有監督的SimCSE。”

訓練過程

預處理

更多信息待補充。

速度、規模、時間

超參數 模型創建者在相關GitHub倉庫中提到：

	無監督BERT	有監督
批量大小	64	512
學習率（大模型）	1e - 5	1e - 5

評估

測試數據、因素和指標

測試數據

模型創建者在相關論文中提到：“我們用於句子嵌入的評估代碼基於SentEval的修改版本。它在語義文本相似度（STS）任務和下游遷移任務上評估句子嵌入。對於STS任務，我們的評估採用‘全’設置，並報告Spearman相關性。評估細節見相關論文（附錄B）。”

因素

更多信息待補充。

指標

更多信息待補充。

結果

更多信息待補充。

模型檢查

模型創建者在相關論文中提到：

均勻性和對齊性 我們還觀察到：(1) 儘管預訓練嵌入具有良好的對齊性，但它們的均勻性較差（即嵌入具有高度的各向異性）；(2) 像BERT - flow和BERT - whitening這樣的後處理方法大大提高了均勻性，但也導致了對齊性的退化；(3) 無監督的SimCSE有效地提高了預訓練嵌入的均勻性，同時保持了良好的對齊性；(4) 在SimCSE中納入有監督數據進一步改善了對齊性。

環境影響

可以使用Lacoste等人 (2019) 提出的機器學習影響計算器來估算碳排放。

硬件類型：配備CUDA 11的Nvidia 3090 GPU
使用時長：更多信息待補充
雲服務提供商：更多信息待補充
計算區域：更多信息待補充
碳排放：更多信息待補充

技術規格（可選）

模型架構和目標

更多信息待補充。

計算基礎設施

硬件

更多信息待補充。

軟件

更多信息待補充。

引用

BibTeX：

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

模型卡片作者（可選）

普林斯頓NLP團隊與Ezi Ozoani和Hugging Face團隊合作完成。

模型卡片聯繫方式

如果您對代碼或論文有任何疑問，請隨時給Tianyu (tianyug@cs.princeton.edu) 和Xingcheng (yxc18@mails.tsinghua.edu.cn) 發郵件。如果您在使用代碼時遇到任何問題，或想報告一個錯誤，可以打開一個issue。請儘量詳細說明問題，以便我們能更好、更快地幫助您！