SGPT 2.7B Weightedmean Msmarco Specb Bitfit
模型简介
该模型主要用于句子相似度计算和特征提取任务,在MTEB基准测试中表现良好,适用于多种文本分类和检索场景。
模型特点
加权平均方法
采用加权平均技术处理句子表示,提高相似度计算精度
BitFit技术
应用BitFit参数高效微调方法,在保持性能的同时减少计算资源需求
多任务适应
在MTEB基准测试的多种任务上表现良好,包括分类、聚类和检索
模型能力
句子相似度计算
文本特征提取
文本分类
信息检索
文本聚类
使用案例
电子商务
产品评论分类
对Amazon产品评论进行情感极性分类
在MTEB Amazon极性分类任务中达到71.44%准确率
反事实评论检测
识别Amazon平台上的反事实评论
在MTEB Amazon反事实分类任务中达到67.57%准确率
金融
银行客服分类
对银行客户服务查询进行分类
在MTEB Banking77分类任务中达到83.22%准确率
学术
论文聚类
对Arxiv学术论文进行主题聚类
在MTEB Arxiv聚类P2P任务中V度量达到44.72
🚀 SGPT-2.7B加权平均-msmarco-specb-bitfit
该模型主要用于句子相似度计算,具备特征提取等功能,在多个句子处理相关的任务和数据集上进行了测试,并展示了相应的性能指标。
📚 详细文档
模型标签与类型
属性 | 详情 |
---|---|
管道标签 | 句子相似度 |
标签 | 句子转换器、特征提取、句子相似度、MTEB |
模型指标详情
模型名为 SGPT-2.7B-weightedmean-msmarco-specb-bitfit
,在多个任务和数据集上的表现如下:
分类任务
- MTEB AmazonCounterfactualClassification (en)
- 准确率:67.56716417910448
- 平均精度:30.75574629595259
- F1值:61.805121301858655
- MTEB AmazonPolarityClassification
- 准确率:71.439575
- 平均精度:65.91341330532453
- F1值:70.90561852619555
- MTEB AmazonReviewsClassification (en)
- 准确率:35.748000000000005
- F1值:35.48576287186347
- MTEB Banking77Classification
- 准确率:83.21753246753246
- F1值:83.15394543120915
检索任务
- MTEB ArguAna
- MAP@1:25.96
- MAP@10:41.619
- MAP@100:42.673
- MAP@1000:42.684
- MAP@3:36.569
- MAP@5:39.397
- MRR@1:26.316
- MRR@10:41.772
- MRR@100:42.82
- MRR@1000:42.83
- MRR@3:36.724000000000004
- MRR@5:39.528999999999996
- NDCG@1:25.96
- NDCG@10:50.491
- NDCG@100:54.864999999999995
- NDCG@1000:55.10699999999999
- NDCG@3:40.053
- NDCG@5:45.134
- 精度@1:25.96
- 精度@10:7.8950000000000005
- 精度@100:0.9780000000000001
- 精度@1000:0.1
- 精度@3:16.714000000000002
- 精度@5:12.489
- 召回率@1:25.96
- 召回率@10:78.947
- 召回率@100:97.795
- 召回率@1000:99.644
- 召回率@3:50.141999999999996
- 召回率@5:62.446999999999996
- MTEB CQADupstackAndroidRetrieval
- MAP@1:30.808999999999997
- MAP@10:40.617
- MAP@100:41.894999999999996
- MAP@1000:42.025
- MAP@3:37.0
- MAP@5:38.993
- MRR@1:37.482
- MRR@10:46.497
- MRR@100:47.144000000000005
- MRR@1000:47.189
- MRR@3:43.705
- MRR@5:45.193
- NDCG@1:37.482
- NDCG@10:46.688
- NDCG@100:51.726000000000006
- NDCG@1000:53.825
- NDCG@3:41.242000000000004
- NDCG@5:43.657000000000004
- 精度@1:37.482
- 精度@10:8.827
- 精度@100:1.393
- 精度@1000:0.186
- 精度@3:19.361
- 精度@5:14.106
- 召回率@1:30.808999999999997
- 召回率@10:58.47
- 召回率@100:80.51899999999999
- 召回率@1000:93.809
- 召回率@3:42.462
- 召回率@5:49.385
- MTEB CQADupstackEnglishRetrieval
- MAP@1:26.962000000000003
- MAP@10:36.93
- MAP@100:38.102000000000004
- MAP@1000:38.22
- MAP@3:34.065
- MAP@5:35.72
- MRR@1:33.567
- MRR@10:42.269
- MRR@100:42.99
- MRR@1000:43.033
- MRR@3:40.064
- MRR@5:41.258
- NDCG@1:33.567
- NDCG@10:42.405
- NDCG@100:46.847
- NDCG@1000:48.951
- NDCG@3:38.312000000000005
- NDCG@5:40.242
- 精度@1:33.567
- 精度@10:8.032
- 精度@100:1.295
- 精度@1000:0.17600000000000002
- 精度@3:18.662
- 精度@5:13.299
- 召回率@1:26.962000000000003
- 召回率@10:52.489
- 召回率@100:71.635
- 召回率@1000:85.141
- 召回率@3:40.28
- 召回率@5:45.757
- MTEB CQADupstackGamingRetrieval
- MAP@1:36.318
- MAP@10:47.97
- MAP@100:49.003
- MAP@1000:49.065999999999995
- MAP@3:45.031
- MAP@5:46.633
- MRR@1:41.504999999999995
- MRR@10:51.431000000000004
- MRR@100:52.129000000000005
- MRR@1000:52.161
- MRR@3:48.934
- MRR@5:50.42
- NDCG@1:41.504999999999995
- NDCG@10:53.676
- NDCG@100:57.867000000000004
- NDCG@1000:59.166
- NDCG@3:48.516
- NDCG@5:50.983999999999995
- 精度@1:41.504999999999995
- 精度@10:8.608
- 精度@100:1.1560000000000001
- 精度@1000:0.133
- 精度@3:21.462999999999997
- 精度@5:14.721
- 召回率@1:36.318
- 召回率@10:67.066
- 召回率@100:85.34
- 召回率@1000:94.491
- 召回率@3:53.215999999999994
- 召回率@5:59.214
- MTEB CQADupstackGisRetrieval
- MAP@1:22.167
- MAP@10:29.543999999999997
- MAP@100:30.579
- MAP@1000:30.669999999999998
- MAP@3:26.982
- MAP@5:28.474
- MRR@1:24.068
- MRR@10:31.237
- MRR@100:32.222
- MRR@1000:32.292
- MRR@3:28.776000000000003
- MRR@5:30.233999999999998
- NDCG@1:24.068
- NDCG@10:33.973
- NDCG@100:39.135
- NDCG@1000:41.443999999999996
- NDCG@3:29.018
- NDCG@5:31.558999999999997
- 精度@1:24.068
- 精度@10:5.299
- 精度@100:0.823
- 精度@1000:0.106
- 精度@3:12.166
- 精度@5:8.767999999999999
- 召回率@1:22.167
- 召回率@10:46.115
- 召回率@100:69.867
- 召回率@1000:87.234
- 召回率@3:32.798
- 召回率@5:38.951
- MTEB CQADupstackMathematicaRetrieval
- MAP@1:12.033000000000001
- MAP@10:19.314
- MAP@100:20.562
- MAP@1000:20.695
- MAP@3:16.946
- MAP@5:18.076999999999998
- MRR@1:14.801
- MRR@10:22.74
- MRR@100:23.876
- MRR@1000:23.949
- MRR@3:20.211000000000002
- MRR@5:21.573
- NDCG@1:14.801
- NDCG@10:24.038
- NDCG@100:30.186
- NDCG@1000:33.321
- NDCG@3:19.431
- NDCG@5:21.34
- 精度@1:14.801
- 精度@10:4.776
- 精度@100:0.897
- 精度@1000:0.133
- 精度@3:9.66
- 精度@5:7.239
- 召回率@1:12.033000000000001
- 召回率@10:35.098
- 召回率@100:62.175000000000004
- 召回率@1000:84.17099999999999
- 召回率@3:22.61
- 召回率@5:27.278999999999996
- MTEB CQADupstackPhysicsRetrieval
- MAP@1:26.651000000000003
- MAP@10:36.901
- MAP@100:38.249
- MAP@1000:38.361000000000004
- MAP@3:33.891
- MAP@5:35.439
- MRR@1:32.724
- MRR@10:42.504
- MRR@100:43.391999999999996
- MRR@1000:43.436
- MRR@3:39.989999999999995
- MRR@5:41.347
- NDCG@1:32.724
- NDCG@10:43.007
- NDCG@100:48.601
- NDCG@1000:50.697
- NDCG@3:37.99
- NDCG@5:40.083999999999996
- 精度@1:32.724
- 精度@10:7.872999999999999
- 精度@100:1.247
- 精度@1000:0.16199999999999998
- 精度@3:18.062
- 精度@5:12.666
- 召回率@1:26.651000000000003
- 召回率@10:55.674
- 召回率@100:78.904
- 召回率@1000:92.55799999999999
- 召回率@3:41.36
- 召回率@5:46.983999999999995
- MTEB CQADupstackProgrammersRetrieval
- MAP@1:22.589000000000002
- MAP@10:32.244
- MAP@100:33.46
- MAP@1000:33.593
- MAP@3:29.21
- MAP@5:31.019999999999996
- MRR@1:28.425
- MRR@10:37.282
- MRR@100:38.187
- MRR@1000:38.248
- MRR@3:34.684
- MRR@5:36.123
- NDCG@1:28.425
- NDCG@10:37.942
- NDCG@100:43.443
- NDCG@1000:45.995999999999995
- NDCG@3:32.873999999999995
- NDCG@5:35.325
- 精度@1:28.425
- 精度@10:7.1
- 精度@100:1.166
- 精度@1000:0.158
- 精度@3:16.02
- 精度@5:11.644
- 召回率@1:22.589000000000002
- 召回率@10:50.03999999999999
- 召回率@100:73.973
- 召回率@1000:91.128
- 召回率@3:35.882999999999996
- 召回率@5:42.187999999999995
- MTEB CQADupstackRetrieval
- MAP@1:23.190833333333334
- MAP@10:31.504916666666666
- MAP@100:32.64908333333334
- MAP@1000:32.77075
- MAP@3:28.82575
- MAP@5:30.2755
- MRR@1:27.427499999999995
- MRR@10:35.36483333333334
- MRR@100:36.23441666666666
- MRR@1000:36.297583333333336
- MRR@3:32.97966666666667
- MRR@5:34.294583333333335
- NDCG@1:27.427499999999995
- NDCG@10:36.53358333333333
- NDCG@100:41.64508333333333
- NDCG@1000:44.14499999999999
- NDCG@3:31.88908333333333
- NDCG@5:33.98433333333333
- 精度@1:27.427499999999995
- 精度@10:6.481083333333333
- 精度@100:1.0610833333333334
- 精度@1000:0.14691666666666667
- 精度@3:14.656749999999999
- 精度@5:10.493583333333332
- 召回率@1:23.190833333333334
- 召回率@10:47.65175
- 召回率@100:70.41016666666667
- 召回率@1000:87.82708333333332
- 召回率@3:34.637583333333325
- 召回率@5:40.05008333333333
- MTEB CQADupstackStatsRetrieval
- MAP@1:20.409
- MAP@10:26.794
- MAP@100:27.682000000000002
- MAP@1000:27.783
- MAP@3:24.461
- MAP@5:25.668000000000003
- MRR@1:22.853
- MRR@10:29.296
- MRR@100:30.103
- MRR@1000:30.179000000000002
- MRR@3:27.173000000000002
- MRR@5:28.223
- NDCG@1:22.853
- NDCG@10:31.007
- NDCG@100:35.581
- NDCG@1000:38.147
- NDCG@3:26.590999999999998
- NDCG@5:28.43
- 精度@1:22.853
- 精度@10:5.031
- 精度@100:0.7939999999999999
- 精度@1000:0.11
- 精度@3:11.401
- 精度@5:8.16
- 召回率@1:20.409
- 召回率@10:41.82
- 召回率@100:63.57
- 召回率@1000:81.67
- 召回率@3:30.61
- 召回率@5:36.22
聚类任务
- MTEB ArxivClusteringP2P
- V-measure:44.72125714642202
- MTEB ArxivClusteringS2S
- V-measure:35.081451519142064
- MTEB BiorxivClusteringP2P
- V-measure:34.41414219680629
- MTEB BiorxivClusteringS2S
- V-measure:30.533275862270028
重排序任务
- MTEB AskUbuntuDupQuestions
- MAP:59.634661990392054
- MRR:73.6813525040672
语义文本相似度任务
- MTEB BIOSSES
- 余弦相似度皮尔逊相关系数:87.42754550496836
- 余弦相似度斯皮尔曼相关系数:84.84289705838664
- 欧几里得距离皮尔逊相关系数:85.59331970450859
- 欧几里得距离斯皮尔曼相关系数:85.8525586184271
- 曼哈顿距离皮尔逊相关系数:85.41233134466698
- 曼哈顿距离斯皮尔曼相关系数:85.52303303767404
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98