unsup-simcse-bert-base-uncasedオープンソースモデル - 文章埋め込み品質を向上させる効果的なツール

ホーム

Unsup Simcse Bert Base Uncased

princeton-nlpによって開発

BERTアーキテクチャに基づく教師なし対比学習モデルで、簡単で効果的な対比学習フレームワークにより文の埋め込み品質を向上させます。

テキスト埋め込み #文の埋め込み #対比学習 #教師なし学習

ダウンロード数 9,546

リリース時間 : 3/2/2022

モデル概要

このモデルは対比学習フレームワークSimCSEを採用し、教師なし方式で文の埋め込み表現を学習し、特徴抽出タスクに適しています。

モデル特徴

教師なし対比学習

元のテキストのみで高品質な文の埋め込みを学習でき、ラベル付きデータは必要ありません。

簡単で効率的

dropoutメカニズムで正のサンプルペアを構築し、複雑なデータ拡張は必要ありません。

等方性最適化

事前学習モデルの異方性問題を効果的に改善し、埋め込み空間の一貫性を向上させます。

モデル能力

文の埋め込み抽出

意味的類似度計算

テキスト特徴表現学習

使用事例

意味検索

文書類似度マッチング

文書/文間の意味的類似度を計算します。

STSタスクで優れた性能を発揮します。

下流NLPタスク

転移学習特徴抽出

分類/クラスタリングタスクの事前学習特徴として使用します。

🚀 unsup - simcse - bert - base - uncasedモデルカード

このモデルは主に特徴抽出タスクに使用され、BERTアーキテクチャに基づいて開発されており、関連する自然言語処理タスクに効果的な特徴表現を提供することができます。

🚀 クイックスタート

以下のコードを使用して、このモデルを使い始めましょう：

クリックして展開

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")

model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-base-uncased")

✨ 主な機能

特徴エンジニアリングタスクに使用できます。
BERTアーキテクチャに基づいており、特徴抽出において良好な性能を発揮します。

📚 ドキュメント

モデル詳細

開発者：Princeton NLP group
共有元：Hugging Face
モデルタイプ：特徴抽出
関連モデル：親モデルはBERT
詳細情報リソース：

使用シナリオ

直接使用

このモデルは特徴エンジニアリングタスクに使用できます。

適用範囲外の使用

このモデルは、人々に敵対的または排他的な環境を意図的に作り出すために使用されるべきではありません。

バイアス、リスク、制限事項

多くの研究で言語モデルのバイアスと公平性の問題が検討されています（例えば、Shengら (2021) および Benderら (2021) を参照）。モデルが生成する予測には、保護されたカテゴリ、身元特徴、および敏感な社会的および職業的グループに対する不快で有害な固定観念が含まれる可能性があります。

提案

直接的および下流のユーザーは、このモデルのリスク、バイアス、制限事項を理解すべきです。さらなる提案については、より多くの情報が必要です。

トレーニング詳細

トレーニングデータ

モデル作成者は Githubリポジトリで述べています：

私たちは、英文ウィキペディアからランダムに抽出した106個の文で教師なしSimCSEをトレーニングし、MNLIとSNLIデータセット（314k）の組み合わせで教師ありSimCSEをトレーニングしました。

評価

テストデータ、要因、指標

テストデータ

モデル作成者は関連論文で述べています：

私たちが文埋め込みの評価に使用するコードは、SentEval の修正版に基づいています。これは、意味的テキスト類似度（STS）タスクと下流の転移タスクで文埋め込みを評価します。STSタスクでは、私たちの評価は「all」設定を採用し、Spearman相関を報告します。評価の詳細については、関連論文（付録B）を参照してください。

モデル分析

モデル作成者は関連論文で述べています：

均一性と整列性 私たちはまた、以下のことを観察しました：(1) 事前学習された埋め込みは良好な整列性を持っているものの、均一性が低い（つまり、埋め込みは高度な異方性を持っている）；(2) BERT - flowやBERT - whiteningのような事後処理方法は均一性を大幅に向上させるが、整列性の低下を招く；(3) 教師なしSimCSEは事前学習された埋め込みの均一性を効果的に向上させると同時に、良好な整列性を維持する；(4) SimCSEに教師ありデータを追加すると、整列性がさらに改善される。

環境への影響

Lacosteら (2019) で提案された機械学習影響計算機を使用して、炭素排出量を推定することができます。

ハードウェアタイプ：CUDA 11を搭載したNvidia 3090 GPU

引用

BibTeX：

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

モデルカード作成者

Princeton NLP groupはEzi OzoaniおよびHugging Faceチームと協力して作成しました。

モデルカード連絡先

コードや論文に関する質問がある場合は、Tianyu (tianyug@cs.princeton.edu) とXingcheng (yxc18@mails.tsinghua.edu.cn) にメールを送ってください。コードの使用中に問題が発生した場合、またはエラーを報告したい場合は、issueを開くことができます。問題をできるだけ詳細に説明してください。そうすることで、私たちがより良く、より速くお手伝いできます！