🚀 sup-simcse-roberta-large モデルカード
このモデルは特徴抽出タスクに使用できるモデルで、RoBERTa-large をベースとして開発されています。以下に詳細な情報を提供します。
🚀 クイックスタート
以下のコードを使用して、モデルを始めることができます。
クリックして展開
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
model = AutoModel.from_pretrained("princeton-nlp/sup-simcse-roberta-large")
✨ 主な機能
このモデルは特徴抽出タスクに使用できます。
📚 ドキュメント
モデルの詳細
用途
直接的な使用
このモデルは特徴抽出タスクに使用できます。
スコープ外の使用
このモデルは、人々に敵意的または疎外感を与える環境を意図的に作り出すために使用してはいけません。
バイアス、リスク、制限
多くの研究が言語モデルのバイアスと公平性の問題を探っています(例えば、Sheng et al. (2021) と Bender et al. (2021) を参照)。このモデルによって生成される予測には、保護されたクラス、アイデンティティの特性、および敏感な社会的および職業的グループにまたがる不快で有害なステレオタイプが含まれる可能性があります。
推奨事項
ユーザー(直接的および下流的なユーザー)は、このモデルのリスク、バイアス、および制限について認識すべきです。さらなる推奨事項については、詳細情報が必要です。
学習の詳細
学習データ
モデル開発者は Github リポジトリ で以下のことを述べています。
私たちは、英語版ウィキペディアからランダムにサンプリングされた 106 の文で教師なし SimCSE を学習させ、MNLI と SNLI データセットの組み合わせ(314k)で教師あり SimCSE を学習させます。
評価
テストデータ、要因、メトリクス
テストデータ
モデル開発者は 関連論文 で以下のことを述べています。
私たちの文埋め込みの評価コードは、SentEval の修正版に基づいています。これは、意味的テキスト類似性(STS)タスクと下流の転移タスクで文埋め込みを評価します。STS タスクの場合、私たちの評価は "all" 設定を採用し、スピアマンの相関係数を報告します。評価の詳細については、関連論文(付録 B)を参照してください。
環境影響
炭素排出量は、Lacoste et al. (2019) で提示された Machine Learning Impact calculator を使用して推定できます。
引用
BibTeX:
@inproceedings{gao2021simcse,
title={{SimCSE}: Simple Contrastive Learning of Sentence Embeddings},
author={Gao, Tianyu and Yao, Xingcheng and Chen, Danqi},
booktitle={Empirical Methods in Natural Language Processing (EMNLP)},
year={2021}
}
その他の情報
コードまたは論文に関する質問がある場合は、Tianyu (tianyug@cs.princeton.edu
) と Xingcheng (yxc18@mails.tsinghua.edu.cn
) にメールを送ってください。コードを使用する際に問題が発生した場合、またはバグを報告したい場合は、イシューを開くことができます。できるだけ詳細に問題を指定してください。そうすることで、私たちがより良く、より迅速にあなたを助けることができます!
モデルカード作成者
Princeton NLP グループが Ezi Ozoani および Hugging Face チームと協力して作成しました。