ModernCE-large-sts開源語義相似度評估模型 - 高性能助力文本比對任務

首頁

Modernce Large Sts

由dleemiller開發

高性能的語義相似度評估模型，專為文本比對任務優化

文本分類

Safetensors

支持多種語言開源協議:MIT #長文本語義匹配 #高精度相似度評估 #ModernBERT架構

下載量 25

發布時間 : 1/13/2025

模型概述

該模型是基於ModernBERT-large架構的交叉編碼器，專門用於評估文本對的語義相似度，支持長文本處理並具有卓越的評估精度。

模型特點

卓越性能

在STS-Benchmark測試集上取得皮爾遜係數0.9256與斯皮爾曼係數0.9215

高效架構

基於ModernBERT-large設計，推理速度更快

長文本支持

支持最長8192個token的序列處理，特別適合大語言模型輸出評估

複合訓練

先通過wiki-sim數據集預訓練，再經stsb數據集微調

模型能力

語義相似度評估

文本對評分

長文本處理

使用案例

自然語言處理

大語言模型輸出評估

評估LLM生成文本與參考文本的語義相似度

提供0-1範圍的精確相似度評分

問答系統

判斷問題與候選答案的匹配程度

提高問答系統的準確率

🚀 ModernBERT交叉編碼器：語義相似度（STS）

現代BERT交叉編碼器是一種高性能的編碼器模型，可用於比較兩個文本並輸出0到1之間的相似度得分。該模型在創建大語言模型（LLM）輸出評估器方面非常實用，具有使用簡單、速度快且準確性高的特點。

🚀 快速開始

若要將ModernCE用於語義相似度任務，可使用Hugging Face的sentence-transformers庫加載模型：

from sentence_transformers import CrossEncoder

# 加載ModernCE模型
model = CrossEncoder("dleemiller/ModernCE-large-sts")

# 預測句子對的相似度得分
sentence_pairs = [
    ("It's a wonderful day outside.", "It's so sunny today!"),
    ("It's a wonderful day outside.", "He drove to work earlier."),
]
scores = model.predict(sentence_pairs)

print(scores)  # 輸出: array([0.9184, 0.0123], dtype=float32)

輸出

該模型返回的相似度得分範圍為[0, 1]，得分越高表示語義相似度越強。

✨ 主要特性

高性能：在STS基準測試集上，皮爾遜相關係數達到0.9256，斯皮爾曼相關係數達到0.9215。
高效架構：基於ModernBERT-large設計（3.95億參數），推理速度更快。
擴展上下文長度：可處理長達8192個標記的序列，非常適合大語言模型輸出評估。
多樣化訓練：在dleemiller/wiki-sim上進行預訓練，並在sentence-transformers/stsb上進行微調。

📊 性能表現

模型	STS-B測試皮爾遜係數	STS-B測試斯皮爾曼係數	上下文長度	參數數量	速度
`ModernCE-large-sts`	0.9256	0.9215	8192	3.95億	中等
`ModernCE-base-sts`	0.9162	0.9122	8192	1.49億	快速
`stsb-roberta-large`	0.9147	-	512	3.55億	慢
`stsb-distilroberta-base`	0.8792	-	512	8200萬	快速

📚 詳細文檔

訓練詳情

預訓練

該模型在dleemiller/wiki-sim數據集的pair-score-sampled子集上進行預訓練。此數據集提供了帶有語義相似度得分的多樣化句子對，有助於模型建立對句子間關係的強大理解。

分類器丟棄率：採用了相對較大的分類器丟棄率0.3，以減少對教師得分的過度依賴。
目標：以cross-encoder/stsb-roberta-large的STS-B分數為目標。

微調

在sentence-transformers/stsb數據集上進行微調。

驗證結果

微調後，該模型在測試集上取得了以下性能：

皮爾遜相關係數：0.9256
斯皮爾曼相關係數：0.9215

模型卡片

屬性	詳情
架構	ModernBERT-large
分詞器	使用現代技術訓練的自定義分詞器，用於處理長上下文
預訓練數據	`dleemiller/wiki-sim (pair-score-sampled)`
微調數據	`sentence-transformers/stsb`

📄 許可證

本模型採用MIT許可證。

🙏 致謝

感謝AnswerAI團隊提供ModernBERT模型，以及Sentence Transformers團隊在Transformer編碼器模型方面的卓越貢獻。

📖 引用

如果您在研究中使用了此模型，請引用：

@misc{moderncestsb2025,
  author = {Miller, D. Lee},
  title = {ModernCE STS: An STS cross encoder model},
  year = {2025},
  publisher = {Hugging Face Hub},
  url = {https://huggingface.co/dleemiller/ModernCE-large-sts},
}