🚀 Sentence-Transformers
Sentence-Transformers 是一个用于句子、文本和图像嵌入的Python框架。该框架提供了多种预训练模型,可用于计算句子相似度、文本聚类、文本分类等自然语言处理任务。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
双语嵌入基础模型(bilingual-embedding-base) |
训练数据 |
涉及多个数据集,如lyon-nlp/alloprof 、maastrichtlawtech/bsard 、mteb/amazon_reviews_multi 等 |
任务及指标
聚类任务(Clustering)
- MTEB AlloProfClusteringP2P
- 数据集:
lyon-nlp/alloprof
- 指标:
v_measure
:64.71347977413274
v_measures
:[0.6276406100583347, 0.6380984027637511, 0.6322659733117469, 0.652473343931587, 0.6411502615838207]
- MTEB AlloProfClusteringS2S
- 数据集:
lyon-nlp/alloprof
- 指标:
v_measure
:45.56886694296516
v_measures
:[0.4359417286866465, 0.4218168523895086, 0.419693469863105, 0.4981808644314091, 0.4546120704986696]
- MTEB HALClusteringS2S
- 数据集:
lyon-nlp/clustering-hal-s2s
- 指标:
v_measure
:25.366610995664384
v_measures
:[0.2853826102888054, 0.27554329622230517, 0.2659387504290534, 0.272421074779971, 0.23780511730712292]
- MTEB MLSUMClusteringP2P
- 数据集:
reciTAL/mlsum
- 指标:
v_measure
:44.22735442638259
v_measures
:[0.446401643334608, 0.45940182243882194, 0.4535014442023603, 0.4315840671354274, 0.40219963696623473]
- MTEB MLSUMClusteringS2S
- 数据集:
reciTAL/mlsum
- 指标:
v_measure
:44.57521454657146
v_measures
:[0.4501823523199927, 0.45800459800343646, 0.4535621236055794, 0.4353844290212204, 0.40539074932285035]
- MTEB MasakhaNEWSClusteringP2P (fra)
- 数据集:
masakhane/masakhanews
- 指标:
v_measure
:61.57579457743856
v_measures
:[1.0, 0.19333147584460073, 0.1918473189330316, 0.9180419176341081, 0.7755690164601873]
- MTEB MasakhaNEWSClusteringS2S (fra)
- 数据集:
masakhane/masakhanews
- 指标:
v_measure
:46.09882977546196
v_measures
:[1.0, 0.0, 0.4881603944307428, 0.1341399033659235, 0.6826411909764316]
重排序任务(Reranking)
- MTEB AlloprofReranking
- 数据集:
lyon-nlp/mteb-fr-reranking-alloprof-s2p
- 指标:
map
:70.45979049191963
mrr
:71.61250582558874
nAUC_map_diff1
:53.81172404763562
nAUC_map_max
:11.344605627946006
nAUC_mrr_diff1
:53.73572411920392
nAUC_mrr_max
:11.900785644756448
- MTEB SyntecReranking
- 数据集:
lyon-nlp/mteb-fr-reranking-syntec-s2p
- 指标:
map
:83.82619047619046
mrr
:83.82619047619046
nAUC_map_diff1
:56.291594426865686
nAUC_map_max
:9.006252496368798
nAUC_mrr_diff1
:56.291594426865686
nAUC_mrr_max
:9.006252496368798
检索任务(Retrieval)
- MTEB AlloprofRetrieval
- 数据集:
lyon-nlp/alloprof
- 指标:包含
map_at_1
、map_at_10
、mrr_at_1
等多种指标,具体数值见原文档。
- MTEB BSARDRetrieval
- 数据集:
maastrichtlawtech/bsard
- 指标:包含
map_at_1
、map_at_10
、mrr_at_1
等多种指标,具体数值见原文档。
- MTEB MintakaRetrieval (fr)
- 数据集:
jinaai/mintakaqa
- 指标:包含
map_at_1
、map_at_10
、mrr_at_1
等多种指标,具体数值见原文档。
- MTEB SyntecRetrieval
- 数据集:
lyon-nlp/mteb-fr-retrieval-syntec-s2p
- 指标:包含
map_at_1
、map_at_10
、mrr_at_1
等多种指标,具体数值见原文档。
- MTEB XPQARetrieval (fr)
- 数据集:
jinaai/xpqa
- 指标:包含
map_at_1
、map_at_10
、mrr_at_1
等多种指标,具体数值见原文档。
分类任务(Classification)
- MTEB AmazonReviewsClassification (fr)
- 数据集:
mteb/amazon_reviews_multi
- 指标:
accuracy
:40.354
f1
:38.96127209677864
f1_weighted
:38.96127209677863
- MTEB MTOPDomainClassification (fr)
- 数据集:
mteb/mtop_domain
- 指标:
accuracy
:86.82743501409333
f1
:87.07777165714171
f1_weighted
:86.70555382175719
- MTEB MTOPIntentClassification (fr)
- 数据集:
mteb/mtop_intent
- 指标:
accuracy
:59.129345443156886
f1
:40.374753319633946
f1_weighted
:61.735222244513906
- MTEB MassiveIntentClassification (fr)
- 数据集:
mteb/amazon_massive_intent
- 指标:
accuracy
:64.98655010087424
f1
:62.07892690857404
f1_weighted
:64.04916798028313
- MTEB MassiveScenarioClassification (fr)
- 数据集:
mteb/amazon_massive_scenario
- 指标:
accuracy
:71.72494956287828
f1
:70.7613627592262
f1_weighted
:71.59023734198762
成对分类任务(PairClassification)
- MTEB OpusparcusPC (fr)
- 数据集:
GEM/opusparcus
- 指标:包含
cos_sim_accuracy
、cos_sim_ap
等多种指标,具体数值见原文档。
- MTEB PawsX (fr)
- 数据集:
google-research-datasets/paws-x
- 指标:包含
cos_sim_accuracy
、cos_sim_ap
等多种指标,具体数值见原文档。
语义文本相似度任务(STS)
- MTEB SICKFr
- 数据集:
Lajavaness/SICK-fr
- 指标:包含
cos_sim_pearson
、cos_sim_spearman
等多种指标,具体数值见原文档。
- MTEB STS22 (fr)
- 数据集:
mteb/sts22-crosslingual-sts
- 指标:包含
cos_sim_pearson
、cos_sim_spearman
等多种指标,具体数值见原文档。
- MTEB STSBenchmarkMultilingualSTS (fr)
- 数据集:
mteb/stsb_multi_mt
- 指标:包含
cos_sim_pearson
、cos_sim_spearman
等多种指标,具体数值见原文档。
摘要任务(Summarization)
- MTEB SummEvalFr
- 数据集:
lyon-nlp/summarization-summeval-fr-p2p
- 指标:
cos_sim_pearson
:29.949370780736455
cos_sim_spearman
:30.16472987232583
dot_pearson
:29.94937008799093
dot_spearman
:30.16472987232583