🚀 基于ModernBERT的交叉编码器:语义相似度(STS)
本项目基于answerdotai/ModernBERT-base
架构,构建了用于语义相似度任务的交叉编码器。交叉编码器能够比较两个文本并输出0 - 1之间的相似度得分,在评估大语言模型(LLM)输出方面表现出色。本模型具有高性能、高效架构、长上下文处理能力和多样化训练等优势,是语义相似度评估的优质选择。
🚀 快速开始
要使用ModernCE
进行语义相似度任务,你可以使用Hugging Face的sentence-transformers
库加载模型:
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-base-sts")
sentence_pairs = [
("It's a wonderful day outside.", "It's so sunny today!"),
("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)
print(scores)
输出
模型返回的相似度得分范围为[0, 1]
,得分越高表示语义相似度越强。
✨ 主要特性
- 高性能:在STS基准测试集上,皮尔逊相关系数达到0.9162,斯皮尔曼相关系数达到0.9122。
- 高效架构:基于
ModernBERT-base
设计(1.49亿参数),推理速度更快。
- 长上下文处理能力:能够处理长达8192个标记的序列,非常适合评估大语言模型的输出。
- 多样化训练:在
dleemiller/wiki-sim
数据集上进行预训练,并在sentence-transformers/stsb
数据集上进行微调。
📊 性能表现
模型名称 |
STS - B测试集皮尔逊相关系数 |
STS - B测试集斯皮尔曼相关系数 |
上下文长度 |
参数数量 |
速度 |
ModernCE-large-sts |
0.9256 |
0.9215 |
8192 |
3.95亿 |
中等 |
ModernCE-base-sts |
0.9162 |
0.9122 |
8192 |
1.49亿 |
快速 |
stsb-roberta-large |
0.9147 |
- |
512 |
3.55亿 |
慢速 |
stsb-distilroberta-base |
0.8792 |
- |
512 |
0.82亿 |
快速 |
💻 使用示例
基础用法
from sentence_transformers import CrossEncoder
model = CrossEncoder("dleemiller/ModernCE-base-sts")
sentence_pairs = [
("It's a wonderful day outside.", "It's so sunny today!"),
("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)
print(scores)
🔧 技术细节
预训练
模型在dleemiller/wiki-sim
数据集的pair-score-sampled
子集上进行预训练。该数据集提供了多样化的句子对及语义相似度得分,有助于模型建立对句子关系的强大理解。
- 分类器丢弃率:采用了相对较大的分类器丢弃率0.3,以减少对教师得分的过度依赖。
- 目标:以
cross-encoder/stsb-roberta-large
的STS - B得分作为目标。
微调
模型在sentence-transformers/stsb
数据集上进行微调。
验证结果
微调后,模型在测试集上取得了以下性能:
- 皮尔逊相关系数:0.9162
- 斯皮尔曼相关系数:0.9122
📚 详细文档
模型卡片
属性 |
详情 |
模型架构 |
ModernBERT - base |
分词器 |
使用现代技术训练的自定义分词器,用于长上下文处理 |
预训练数据 |
dleemiller/wiki-sim (pair-score-sampled) |
微调数据 |
sentence-transformers/stsb |
📄 许可证
本模型采用MIT许可证。
🙏 致谢
感谢AnswerAI团队提供ModernBERT
模型,以及Sentence Transformers团队在Transformer编码器模型方面的杰出贡献。
📖 引用
如果您在研究中使用了本模型,请引用:
@misc{moderncestsb2025,
author = {Miller, D. Lee},
title = {ModernCE STS: An STS cross encoder model},
year = {2025},
publisher = {Hugging Face Hub},
url = {https://huggingface.co/dleemiller/ModernCE-base-sts},
}