🚀 ModernBERT Cross-Encoder: 意味的類似度 (STS)
クロスエンコーダは、2つのテキストを比較して0から1のスコアを出力する高性能なエンコーダモデルです。私は cross-encoders/roberta-large-stsb
モデルが、LLMの出力評価器を作成する際に非常に役立つことを見つけました。これらは使いやすく、高速で、非常に正確です。
多くの人と同様に、私もModernBERTアーキテクチャ (answerdotai/ModernBERT-large
) のアーキテクチャと学習の向上に興奮しました。そこで、非常に便利なモデルであるstsbクロスエンコーダにこれを適用しました。さらに、この種の目的を対象としたはるかに大きな半合成データセット dleemiller/wiki-sim
からの事前学習を追加しました。推論性能の効率性、拡張されたコンテキスト、およびシンプルさが、これを評価器モデルとして本当に素敵なプラットフォームにしています。
🚀 クイックスタート
このセクションでは、このモデルの概要と使い方の基本を説明します。
✨ 主な機能
- 高性能: STS-Benchmarkテストセットで ピアソン相関係数: 0.9256 および スピアマン相関係数: 0.9215 を達成します。
- 効率的なアーキテクチャ: ModernBERT-large設計 (395Mパラメータ) に基づいており、より高速な推論速度を提供します。
- 拡張されたコンテキスト長: 最大8192トークンのシーケンスを処理でき、LLM出力評価に最適です。
- 多様な学習:
dleemiller/wiki-sim
で事前学習され、sentence-transformers/stsb
で微調整されています。
📊 性能
モデル |
STS-Bテストピアソン |
STS-Bテストスピアマン |
コンテキスト長 |
パラメータ |
速度 |
ModernCE-large-sts |
0.9256 |
0.9215 |
8192 |
395M |
中 |
ModernCE-base-sts |
0.9162 |
0.9122 |
8192 |
149M |
速 |
stsb-roberta-large |
0.9147 |
- |
512 |
355M |
遅い |
stsb-distilroberta-base |
0.8792 |
- |
512 |
82M |
速い |
💻 使用例
基本的な使用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-large-sts")
sentence_pairs = [
("It's a wonderful day outside.", "It's so sunny today!"),
("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)
print(scores)
出力
モデルは [0, 1]
の範囲の類似度スコアを返します。スコアが高いほど、意味的な類似度が強いことを示します。
📚 ドキュメント
事前学習
このモデルは、dleemiller/wiki-sim
データセットの pair-score-sampled
サブセットで事前学習されています。このデータセットは、意味的な類似度スコア付きの多様な文章ペアを提供し、モデルが文章間の関係を堅牢に理解するのに役立ちます。
- 分類器ドロップアウト: 教師スコアへの過度の依存を減らすために、やや大きい0.3の分類器ドロップアウトを使用しています。
- 目的:
cross-encoder/stsb-roberta-large
からのSTS-Bスコア。
微調整
微調整は、sentence-transformers/stsb
データセットで行われました。
検証結果
微調整後のモデルは、以下のテストセット性能を達成しました。
- ピアソン相関係数: 0.9256
- スピアマン相関係数: 0.9215
モデルカード
属性 |
詳情 |
アーキテクチャ |
ModernBERT-large |
トークナイザー |
長文コンテキスト処理のための最新技術で学習されたカスタムトークナイザー |
事前学習データ |
dleemiller/wiki-sim (pair-score-sampled) |
微調整データ |
sentence-transformers/stsb |
🙏 謝辞
AnswerAIチームがModernBERTモデルを提供してくれたこと、およびSentence Transformersチームがトランスフォーマーエンコーダモデルの分野で率先して取り組んでいることに感謝します。
📖 引用
このモデルを研究で使用する場合は、以下のように引用してください。
@misc{moderncestsb2025,
author = {Miller, D. Lee},
title = {ModernCE STS: An STS cross encoder model},
year = {2025},
publisher = {Hugging Face Hub},
url = {https://huggingface.co/dleemiller/ModernCE-large-sts},
}
📄 ライセンス
このモデルは MITライセンス の下でライセンスされています。