unsup - simcse - bert - large - uncasedオープンソースモデル - 教師なし学習に使用する高品質の文埋め込みを無料で生成

ホーム

Unsup Simcse Bert Large Uncased

princeton-nlpによって開発

SimCSEは高品質な文埋め込みを生成するためのシンプルな対照学習フレームワークで、特に教師なし学習シナリオに適しています。

テキスト埋め込み #文埋め込みの対照学習 #教師なし意味類似度 #BERT特徴抽出

ダウンロード数 32

リリース時間 : 3/2/2022

モデル概要

このモデルはBERTアーキテクチャに基づき、対照学習方式で文埋め込み表現を最適化し、特徴抽出や意味類似度計算などのタスクに使用できます。

モデル特徴

教師なし対照学習

シンプルな対照学習フレームワークを採用し、ラベルデータなしで高品質な文埋め込みを訓練可能

BERTアーキテクチャ最適化

BERT-largeアーキテクチャを基に最適化し、良好なアライメントを維持しながら一貫性を向上

効率的な訓練

比較的小さいバッチサイズ(64)と学習率(1e-5)を使用して訓練

モデル能力

文埋め込み生成

意味類似度計算

テキスト特徴抽出

使用事例

意味解析

意味的テキスト類似度計算

2つの文間の意味的類似度を計算

STSタスクで優れた性能を発揮

情報検索

ドキュメント検索

意味的類似度に基づくドキュメント検索システム

🚀 unsup - simcse - bert - large - uncased モデルカード

このモデルは特徴抽出タスクに使用でき、BERTをベースとしたモデルです。Princeton NLPグループによって開発され、関連するGitHubリポジトリや論文が公開されています。

🚀 クイックスタート

以下のコードを使用して、モデルを使用することができます。

from transformers import AutoTokenizer, AutoModel

tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")

✨ 主な機能

特徴抽出タスクに使用可能です。

📚 ドキュメント

モデル詳細

属性	详情
開発者	Princeton NLPグループ
共有者	Princeton NLPグループ
モデルタイプ	特徴抽出
親モデル	BERT
詳細情報リソース	GitHubリポジトリ、関連論文

用途

直接的な使用

このモデルは特徴抽出タスクに使用できます。

スコープ外の使用

このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはいけません。

バイアス、リスク、制限事項

言語モデルのバイアスと公平性の問題に関する重要な研究が行われています（例えば、Sheng et al. (2021) および Bender et al. (2021) を参照）。モデルによって生成された予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。

推奨事項

ユーザー（直接的なユーザーと下流のユーザーの両方）は、モデルのリスク、バイアス、および制限事項を認識すべきです。さらなる推奨事項については、詳細情報が必要です。

トレーニング詳細

トレーニングデータ

モデル開発者は関連するGitHubリポジトリで以下のことを述べています。

私たちは、英語のウィキペディアからランダムにサンプリングされた106の文で教師なしSimCSEをトレーニングし、MNLIとSNLIデータセットの組み合わせ（314k）で教師ありSimCSEをトレーニングします。

トレーニング手順

前処理

詳細情報が必要です。

速度、サイズ、時間

ハイパーパラメータ モデル開発者は関連するGitHubリポジトリで以下のことを述べています。

	教師なしBERT	教師あり
バッチサイズ	64	512
学習率 (大規模)	1e - 5	1e - 5

評価

テストデータ、要因、メトリクス

テストデータ

モデル開発者は関連する論文で以下のことを述べています。

私たちの文埋め込みの評価コードは、SentEval の修正版に基づいています。これは、文埋め込みを意味的なテキストの類似性（STS）タスクと下流の転送タスクで評価します。 STSタスクの場合、私たちの評価は「すべて」の設定を採用し、スピアマンの相関係数を報告します。評価の詳細については、関連する論文（付録B）を参照してください。

モデル検証

モデル開発者は関連する論文で以下のことを述べています。

均一性とアラインメント 私たちはまた、(1) 事前学習された埋め込みは良好なアラインメントを持っているが、均一性が悪い（つまり、埋め込みは高度に異方性である）こと、(2) BERT - flowやBERT - whiteningなどの事後処理方法は均一性を大幅に改善するが、アラインメントの低下も招くこと、(3) 教師なしSimCSEは事前学習された埋め込みの均一性を効果的に改善しながら、良好なアラインメントを維持すること、(4) SimCSEに教師ありデータを組み込むことで、アラインメントがさらに改善されることを観察しています。

環境への影響

炭素排出量は、Lacoste et al. (2019) で提示された機械学習インパクト計算機を使用して推定できます。

属性	详情
ハードウェアタイプ	CUDA 11を搭載したNvidia 3090 GPU
使用時間	詳細情報が必要
クラウドプロバイダー	詳細情報が必要
コンピュートリージョン	詳細情報が必要
排出された炭素量	詳細情報が必要

引用

BibTeX:

@inproceedings{gao2021simcse,
   title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
   author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
   booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
   year={2021}
}

モデルカードの作成者

Princeton NLPグループがEzi OzoaniおよびHugging Faceチームと協力して作成しました。

モデルカードの問い合わせ

コードまたは論文に関する質問がある場合は、Tianyu (tianyug@cs.princeton.edu) とXingcheng (yxc18@mails.tsinghua.edu.cn) にメールを送ってください。コードを使用する際に問題が発生した場合、またはバグを報告したい場合は、イシューを開くことができます。問題を詳細に指定するようにしてください。これにより、より良く、より迅速にお手伝いすることができます！