ModernCE-base-sts開源語義相似度模型 - 免費評估文本相似度，支持長文處理

首頁

Modernce Base Sts

由dleemiller開發

ModernBERT交叉編碼器是一個高性能的語義相似度模型，專為評估文本相似度設計，支持長上下文處理。

文本分類

Safetensors

支持多種語言開源協議:MIT #長文本語義匹配 #高精度STS評估 #ModernBERT架構

下載量 351

發布時間 : 1/13/2025

模型概述

該模型基於ModernBERT-base架構，通過交叉編碼器方式比較兩段文本的語義相似度，輸出0-1的相似度分數。適用於評估大語言模型輸出、文本匹配等場景。

模型特點

高性能

在STS-Benchmark測試集上達到皮爾遜係數0.9162和斯皮爾曼係數0.9122。

高效架構

基於ModernBERT-base設計（1.49億參數），推理速度更快。

擴展的上下文長度

支持處理長達8192個標記的序列，非常適合評估LLM輸出。

多樣化訓練

在dleemiller/wiki-sim上預訓練，並在sentence-transformers/stsb上微調。

模型能力

語義相似度計算

文本對比較

長文本處理

使用案例

文本評估

大語言模型輸出評估

評估大語言模型生成的文本與參考文本的語義相似度。

提供0-1的相似度分數，幫助量化模型輸出質量。

文本匹配

比較兩段文本的語義相似度，用於問答系統、信息檢索等場景。

高準確度的相似度評分，提升匹配效果。

🚀 基於ModernBERT的交叉編碼器：語義相似度（STS）

本項目基於answerdotai/ModernBERT-base架構，構建了用於語義相似度任務的交叉編碼器。交叉編碼器能夠比較兩個文本並輸出0 - 1之間的相似度得分，在評估大語言模型（LLM）輸出方面表現出色。本模型具有高性能、高效架構、長上下文處理能力和多樣化訓練等優勢，是語義相似度評估的優質選擇。

🚀 快速開始

要使用ModernCE進行語義相似度任務，你可以使用Hugging Face的sentence-transformers庫加載模型：

from sentence_transformers import CrossEncoder

# 加載ModernCE模型
model = CrossEncoder("dleemiller/ModernCE-base-sts")

# 預測句子對的相似度得分
sentence_pairs = [
    ("It's a wonderful day outside.", "It's so sunny today!"),
    ("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)

print(scores)  # 輸出: array([0.9184, 0.0123], dtype=float32)

輸出

模型返回的相似度得分範圍為[0, 1]，得分越高表示語義相似度越強。

✨ 主要特性

高性能：在STS基準測試集上，皮爾遜相關係數達到0.9162，斯皮爾曼相關係數達到0.9122。
高效架構：基於ModernBERT-base設計（1.49億參數），推理速度更快。
長上下文處理能力：能夠處理長達8192個標記的序列，非常適合評估大語言模型的輸出。
多樣化訓練：在dleemiller/wiki-sim數據集上進行預訓練，並在sentence-transformers/stsb數據集上進行微調。

📊 性能表現

模型名稱	STS - B測試集皮爾遜相關係數	STS - B測試集斯皮爾曼相關係數	上下文長度	參數數量	速度
`ModernCE-large-sts`	0.9256	0.9215	8192	3.95億	中等
`ModernCE-base-sts`	0.9162	0.9122	8192	1.49億	快速
`stsb-roberta-large`	0.9147	-	512	3.55億	慢速
`stsb-distilroberta-base`	0.8792	-	512	0.82億	快速

💻 使用示例

基礎用法

from sentence_transformers import CrossEncoder

# 加載ModernCE模型
model = CrossEncoder("dleemiller/ModernCE-base-sts")

# 預測句子對的相似度得分
sentence_pairs = [
    ("It's a wonderful day outside.", "It's so sunny today!"),
    ("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)

print(scores)  # 輸出: array([0.9184, 0.0123], dtype=float32)

🔧 技術細節

預訓練

模型在dleemiller/wiki-sim數據集的pair-score-sampled子集上進行預訓練。該數據集提供了多樣化的句子對及語義相似度得分，有助於模型建立對句子關係的強大理解。

分類器丟棄率：採用了相對較大的分類器丟棄率0.3，以減少對教師得分的過度依賴。
目標：以cross-encoder/stsb-roberta-large的STS - B得分作為目標。

微調

模型在sentence-transformers/stsb數據集上進行微調。

驗證結果

微調後，模型在測試集上取得了以下性能：

皮爾遜相關係數：0.9162
斯皮爾曼相關係數：0.9122

📚 詳細文檔

模型卡片

屬性	詳情
模型架構	ModernBERT - base
分詞器	使用現代技術訓練的自定義分詞器，用於長上下文處理
預訓練數據	`dleemiller/wiki-sim (pair-score-sampled)`
微調數據	`sentence-transformers/stsb`

📄 許可證

本模型採用MIT許可證。

🙏 致謝

感謝AnswerAI團隊提供ModernBERT模型，以及Sentence Transformers團隊在Transformer編碼器模型方面的傑出貢獻。

📖 引用

如果您在研究中使用了本模型，請引用：

@misc{moderncestsb2025,
  author = {Miller, D. Lee},
  title = {ModernCE STS: An STS cross encoder model},
  year = {2025},
  publisher = {Hugging Face Hub},
  url = {https://huggingface.co/dleemiller/ModernCE-base-sts},
}