🚀 unsup - simcse - bert - large - uncased モデルカード
このモデルは特徴抽出タスクに使用でき、BERTをベースとしたモデルです。Princeton NLPグループによって開発され、関連するGitHubリポジトリや論文が公開されています。
🚀 クイックスタート
以下のコードを使用して、モデルを使用することができます。
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
model = AutoModel.from_pretrained("princeton-nlp/unsup-simcse-bert-large-uncased")
✨ 主な機能
📚 ドキュメント
モデル詳細
属性 |
详情 |
開発者 |
Princeton NLPグループ |
共有者 |
Princeton NLPグループ |
モデルタイプ |
特徴抽出 |
親モデル |
BERT |
詳細情報リソース |
GitHubリポジトリ、関連論文 |
用途
直接的な使用
このモデルは特徴抽出タスクに使用できます。
スコープ外の使用
このモデルは、人々に敵意や疎外感を抱かせる環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限事項
言語モデルのバイアスと公平性の問題に関する重要な研究が行われています(例えば、Sheng et al. (2021) および Bender et al. (2021) を参照)。モデルによって生成された予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接的なユーザーと下流のユーザーの両方)は、モデルのリスク、バイアス、および制限事項を認識すべきです。さらなる推奨事項については、詳細情報が必要です。
トレーニング詳細
トレーニングデータ
モデル開発者は 関連するGitHubリポジトリ で以下のことを述べています。
私たちは、英語のウィキペディアからランダムにサンプリングされた106の文で教師なしSimCSEをトレーニングし、MNLIとSNLIデータセットの組み合わせ(314k)で教師ありSimCSEをトレーニングします。
トレーニング手順
前処理
詳細情報が必要です。
速度、サイズ、時間
ハイパーパラメータ
モデル開発者は 関連するGitHubリポジトリ で以下のことを述べています。
|
教師なしBERT |
教師あり |
バッチサイズ |
64 |
512 |
学習率 (大規模) |
1e - 5 |
1e - 5 |
評価
テストデータ、要因、メトリクス
テストデータ
モデル開発者は 関連する論文 で以下のことを述べています。
私たちの文埋め込みの評価コードは、SentEval の修正版に基づいています。これは、文埋め込みを意味的なテキストの類似性(STS)タスクと下流の転送タスクで評価します。
STSタスクの場合、私たちの評価は「すべて」の設定を採用し、スピアマンの相関係数を報告します。評価の詳細については、関連する論文(付録B)を参照してください。
モデル検証
モデル開発者は 関連する論文 で以下のことを述べています。
均一性とアラインメント
私たちはまた、(1) 事前学習された埋め込みは良好なアラインメントを持っているが、均一性が悪い(つまり、埋め込みは高度に異方性である)こと、(2) BERT - flowやBERT - whiteningなどの事後処理方法は均一性を大幅に改善するが、アラインメントの低下も招くこと、(3) 教師なしSimCSEは事前学習された埋め込みの均一性を効果的に改善しながら、良好なアラインメントを維持すること、(4) SimCSEに教師ありデータを組み込むことで、アラインメントがさらに改善されることを観察しています。
環境への影響
炭素排出量は、Lacoste et al. (2019) で提示された 機械学習インパクト計算機 を使用して推定できます。
属性 |
详情 |
ハードウェアタイプ |
CUDA 11を搭載したNvidia 3090 GPU |
使用時間 |
詳細情報が必要 |
クラウドプロバイダー |
詳細情報が必要 |
コンピュートリージョン |
詳細情報が必要 |
排出された炭素量 |
詳細情報が必要 |
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
モデルカードの作成者
Princeton NLPグループがEzi OzoaniおよびHugging Faceチームと協力して作成しました。
モデルカードの問い合わせ
コードまたは論文に関する質問がある場合は、Tianyu (tianyug@cs.princeton.edu
) とXingcheng (yxc18@mails.tsinghua.edu.cn
) にメールを送ってください。コードを使用する際に問題が発生した場合、またはバグを報告したい場合は、イシューを開くことができます。問題を詳細に指定するようにしてください。これにより、より良く、より迅速にお手伝いすることができます!