🚀 基於ModernBERT的交叉編碼器:語義相似度(STS)
本項目基於answerdotai/ModernBERT-base
架構,構建了用於語義相似度任務的交叉編碼器。交叉編碼器能夠比較兩個文本並輸出0 - 1之間的相似度得分,在評估大語言模型(LLM)輸出方面表現出色。本模型具有高性能、高效架構、長上下文處理能力和多樣化訓練等優勢,是語義相似度評估的優質選擇。
🚀 快速開始
要使用ModernCE
進行語義相似度任務,你可以使用Hugging Face的sentence-transformers
庫加載模型:
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-base-sts")
sentence_pairs = [
("It's a wonderful day outside.", "It's so sunny today!"),
("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)
print(scores)
輸出
模型返回的相似度得分範圍為[0, 1]
,得分越高表示語義相似度越強。
✨ 主要特性
- 高性能:在STS基準測試集上,皮爾遜相關係數達到0.9162,斯皮爾曼相關係數達到0.9122。
- 高效架構:基於
ModernBERT-base
設計(1.49億參數),推理速度更快。
- 長上下文處理能力:能夠處理長達8192個標記的序列,非常適合評估大語言模型的輸出。
- 多樣化訓練:在
dleemiller/wiki-sim
數據集上進行預訓練,並在sentence-transformers/stsb
數據集上進行微調。
📊 性能表現
模型名稱 |
STS - B測試集皮爾遜相關係數 |
STS - B測試集斯皮爾曼相關係數 |
上下文長度 |
參數數量 |
速度 |
ModernCE-large-sts |
0.9256 |
0.9215 |
8192 |
3.95億 |
中等 |
ModernCE-base-sts |
0.9162 |
0.9122 |
8192 |
1.49億 |
快速 |
stsb-roberta-large |
0.9147 |
- |
512 |
3.55億 |
慢速 |
stsb-distilroberta-base |
0.8792 |
- |
512 |
0.82億 |
快速 |
💻 使用示例
基礎用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-base-sts")
sentence_pairs = [
("It's a wonderful day outside.", "It's so sunny today!"),
("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)
print(scores)
🔧 技術細節
預訓練
模型在dleemiller/wiki-sim
數據集的pair-score-sampled
子集上進行預訓練。該數據集提供了多樣化的句子對及語義相似度得分,有助於模型建立對句子關係的強大理解。
- 分類器丟棄率:採用了相對較大的分類器丟棄率0.3,以減少對教師得分的過度依賴。
- 目標:以
cross-encoder/stsb-roberta-large
的STS - B得分作為目標。
微調
模型在sentence-transformers/stsb
數據集上進行微調。
驗證結果
微調後,模型在測試集上取得了以下性能:
- 皮爾遜相關係數:0.9162
- 斯皮爾曼相關係數:0.9122
📚 詳細文檔
模型卡片
屬性 |
詳情 |
模型架構 |
ModernBERT - base |
分詞器 |
使用現代技術訓練的自定義分詞器,用於長上下文處理 |
預訓練數據 |
dleemiller/wiki-sim (pair-score-sampled) |
微調數據 |
sentence-transformers/stsb |
📄 許可證
本模型採用MIT許可證。
🙏 致謝
感謝AnswerAI團隊提供ModernBERT
模型,以及Sentence Transformers團隊在Transformer編碼器模型方面的傑出貢獻。
📖 引用
如果您在研究中使用了本模型,請引用:
@misc{moderncestsb2025,
author = {Miller, D. Lee},
title = {ModernCE STS: An STS cross encoder model},
year = {2025},
publisher = {Hugging Face Hub},
url = {https://huggingface.co/dleemiller/ModernCE-base-sts},
}