🚀 ModernBERT-Base
这是一个基于 sentence-transformers 框架,在 avemio/German-RAG-EMBEDDING-TRIPLES-HESSIAN-AI 数据集上对 answerdotai/ModernBERT-base 模型进行微调得到的模型。它可以将句子和段落映射到一个 768 维的密集向量空间,可用于语义文本相似度计算、语义搜索、释义挖掘、文本分类、聚类等任务。
📚 详细文档
模型描述
模型来源
完整模型架构
SentenceTransformer(
(0): Transformer({'max_seq_length': 8192, 'do_lower_case': False}) with Transformer model: ModernBertModel
(1): Pooling({'word_embedding_dimension': 768, 'pooling_mode_cls_token': False, 'pooling_mode_mean_tokens': True, 'pooling_mode_max_tokens': False, 'pooling_mode_mean_sqrt_len_tokens': False, 'pooling_mode_weightedmean_tokens': False, 'pooling_mode_lasttoken': False, 'include_prompt': True})
)
💻 使用示例
基础用法
首先安装 Sentence Transformers 库:
pip install -U sentence-transformers
然后你可以加载这个模型并进行推理。
from sentence_transformers import SentenceTransformer
model = SentenceTransformer("avemio-digital/ModernBERT_base_triples_embedding")
sentences = [
'Wieso verklagte die Familie von Ritter die behandelnden Ärzte auf 67 Millionen US-Dollar Schadensersatz?',
'Während Proben zu einer Folge von "Meine wilden Töchter" traten bei Ritter im September 2003 starke Brustschmerzen auf, und er begab sich in das nahegelegene "Providence Saint Joseph Medical Center", in dem er am 11. September 2003 im Alter von 54 Jahren – eine Woche vor seinem 55. Geburtstag – an einer Aortendissektion starb. Seine Familie verklagte Anfang 2008 die behandelnden Ärzte auf einen Schadensersatz von 67 Millionen US-Dollar. Die Klage wurde im März 2008 abgewiesen.',
'Nach der Einstellung der Fernsehserie "Herzbube mit zwei Damen" nach acht Staffeln im Jahr 1984 machte er mit dem Spin-off "Three’s A Crowd" weiter, jedoch wurde die Serie nach einer Staffel eingestellt. Weitere Fernsehrollen hatte er in "Inspektor Hooperman" (1987), die ihm eine Nominierung sowohl für den Golden Globe als auch für den Emmy einbrachte, "Küß’ mich, John" (1992), "Ally McBeal" (1997), "Buffy – Im Bann der Dämonen" (1997), "Clifford the Big Red Dog" (2000), "Scrubs – Die Anfänger" oder "Meine wilden Töchter" (2002).',
]
embeddings = model.encode(sentences)
print(embeddings.shape)
similarities = model.similarity(embeddings, embeddings)
print(similarities.shape)
📊 评估
指标
信息检索
指标 |
值 |
cosine_accuracy@1 |
0.5818 |
cosine_accuracy@3 |
0.9328 |
cosine_accuracy@5 |
0.9522 |
cosine_accuracy@10 |
0.9682 |
cosine_precision@1 |
0.5818 |
cosine_precision@3 |
0.3109 |
cosine_precision@5 |
0.1904 |
cosine_precision@10 |
0.0968 |
cosine_recall@1 |
0.5818 |
cosine_recall@3 |
0.9328 |
cosine_recall@5 |
0.9522 |
cosine_recall@10 |
0.9682 |
cosine_ndcg@10 |
0.814 |
cosine_mrr@10 |
0.7608 |
cosine_map@100 |
0.7618 |
🔧 技术细节
训练数据集
json
- 数据集:json
- 大小:264,810 个训练样本
- 列:
anchor
、positive
和 negative
- 基于前 1000 个样本的近似统计信息:
|
anchor |
positive |
negative |
类型 |
字符串 |
字符串 |
字符串 |
详情 |
- 最小值:28 个词元
- 平均值:54.52 个词元
- 最大值:307 个词元
|
- 最小值:30 个词元
- 平均值:184.58 个词元
- 最大值:1293 个词元
|
- 最小值:33 个词元
- 平均值:151.69 个词元
- 最大值:1297 个词元
|
- 样本:
anchor |
positive |
negative |
原文中未给出完整表格内容,此处无法准确翻译 |
原文中未给出完整表格内容,此处无法准确翻译 |
原文中未给出完整表格内容,此处无法准确翻译 |
📄 许可证
本模型使用的许可证为 apache-2.0。