SGPT 125M Weightedmean Msmarco Specb Bitfit
模型简介
该模型主要用于句子相似度计算和特征提取,支持多种语言的文本处理任务。
模型特点
多语言支持
支持包括英语、德语、西班牙语、法语、日语和中文在内的多种语言处理。
加权平均技术
采用加权平均方法优化句子表示,提升相似度计算性能。
bitfit优化
使用bitfit技术对模型进行微调,提高特定任务的性能。
模型能力
句子相似度计算
文本特征提取
多语言文本处理
分类任务
聚类任务
检索任务
使用案例
电子商务
产品评论分类
对亚马逊等电商平台的产品评论进行分类。
在MTEB Amazon评论分类任务中,英语准确率达到31.17%
反事实分类
识别亚马逊产品描述中的反事实陈述。
在MTEB Amazon反事实分类任务中,英语准确率达到61.24%
学术研究
论文聚类
对arXiv和biorxiv上的学术论文进行聚类分析。
在MTEB Arxiv聚类P2P任务中V度量达到39.71
问答系统
重复问题识别
识别AskUbuntu论坛中的重复问题。
在MTEB AskUbuntu重复问题任务中平均精度达到55.84%
🚀 SGPT-125M-weightedmean-msmarco-specb-bitfit
SGPT-125M-weightedmean-msmarco-specb-bitfit 是一个用于句子相似度任务的模型,可用于文本分类、检索、聚类等多种自然语言处理任务。以下是该模型在多个数据集上的详细评估结果。
📚 详细文档
模型信息
属性 | 详情 |
---|---|
管道标签 | 句子相似度 |
标签 | 句子转换器、特征提取、句子相似度、MTEB |
模型名称 | SGPT-125M-weightedmean-msmarco-specb-bitfit |
评估结果
分类任务
- MTEB AmazonCounterfactualClassification (en)
- 准确率:61.23880597014926
- 平均精度:25.854431650388644
- F1值:55.751862762818604
- MTEB AmazonCounterfactualClassification (de)
- 准确率:56.88436830835117
- 平均精度:72.67279104379772
- F1值:54.449840243786404
- MTEB AmazonCounterfactualClassification (en-ext)
- 准确率:58.27586206896551
- 平均精度:14.067357642500387
- F1值:48.172318518691334
- MTEB AmazonCounterfactualClassification (ja)
- 准确率:54.64668094218415
- 平均精度:11.776694555054965
- F1值:44.526622834078765
- MTEB AmazonPolarityClassification
- 准确率:65.401225
- 平均精度:60.22809958678552
- F1值:65.0251824898292
- MTEB AmazonReviewsClassification (en)
- 准确率:31.165999999999993
- F1值:30.908870050167437
- MTEB AmazonReviewsClassification (de)
- 准确率:24.79
- F1值:24.5833598854121
- MTEB AmazonReviewsClassification (es)
- 准确率:26.643999999999995
- F1值:26.39012792213563
- MTEB AmazonReviewsClassification (fr)
- 准确率:26.386000000000003
- F1值:26.276867791454873
- MTEB AmazonReviewsClassification (ja)
- 准确率:22.078000000000003
- F1值:21.797960290226843
- MTEB AmazonReviewsClassification (zh)
- 准确率:24.274
- F1值:23.887054434822627
- MTEB Banking77Classification
- 准确率:77.70454545454545
- F1值:77.6929000113803
检索任务
- MTEB ArguAna
- MAP@1:22.404
- MAP@10:36.845
- MAP@100:37.945
- MAP@1000:37.966
- MAP@3:31.78
- MAP@5:34.608
- MRR@1:22.902
- MRR@10:37.034
- MRR@100:38.134
- MRR@1000:38.155
- MRR@3:31.935000000000002
- MRR@5:34.812
- NDCG@1:22.404
- NDCG@10:45.425
- NDCG@100:50.354
- NDCG@1000:50.873999999999995
- NDCG@3:34.97
- NDCG@5:40.081
- 精确率@1:22.404
- 精确率@10:7.303999999999999
- 精确率@100:0.951
- 精确率@1000:0.099
- 精确率@3:14.746
- 精确率@5:11.337
- 召回率@1:22.404
- 召回率@10:73.044
- 召回率@100:95.092
- 召回率@1000:99.075
- 召回率@3:44.239
- 召回率@5:56.686
- MTEB CQADupstackAndroidRetrieval
- MAP@1:22.139
- MAP@10:28.839
- MAP@100:30.023
- MAP@1000:30.153000000000002
- MAP@3:26.521
- MAP@5:27.775
- MRR@1:26.466
- MRR@10:33.495000000000005
- MRR@100:34.416999999999994
- MRR@1000:34.485
- MRR@3:31.402
- MRR@5:32.496
- NDCG@1:26.466
- NDCG@10:33.372
- NDCG@100:38.7
- NDCG@1000:41.696
- NDCG@3:29.443
- NDCG@5:31.121
- 精确率@1:26.466
- 精确率@10:6.037
- 精确率@100:1.0670000000000002
- 精确率@1000:0.16199999999999998
- 精确率@3:13.782
- 精确率@5:9.757
- 召回率@1:22.139
- 召回率@10:42.39
- 召回率@100:65.427
- 召回率@1000:86.04899999999999
- 召回率@3:31.127
- 召回率@5:35.717999999999996
- MTEB CQADupstackEnglishRetrieval
- MAP@1:20.652
- MAP@10:27.558
- MAP@100:28.473
- MAP@1000:28.577
- MAP@3:25.402
- MAP@5:26.68
- MRR@1:25.223000000000003
- MRR@10:31.966
- MRR@100:32.664
- MRR@1000:32.724
- MRR@3:30.074
- MRR@5:31.249
- NDCG@1:25.223000000000003
- NDCG@10:31.694
- NDCG@100:35.662
- NDCG@1000:38.092
- NDCG@3:28.294000000000004
- NDCG@5:30.049
- 精确率@1:25.223000000000003
- 精确率@10:5.777
- 精确率@100:0.9730000000000001
- 精确率@1000:0.13999999999999999
- 精确率@3:13.397
- 精确率@5:9.605
- 召回率@1:20.652
- 召回率@10:39.367999999999995
- 召回率@100:56.485
- 召回率@1000:73.292
- 召回率@3:29.830000000000002
- 召回率@5:34.43
- MTEB CQADupstackGamingRetrieval
- MAP@1:25.180000000000003
- MAP@10:34.579
- MAP@100:35.589999999999996
- MAP@1000:35.68
- MAP@3:31.735999999999997
- MAP@5:33.479
- MRR@1:29.467
- MRR@10:37.967
- MRR@100:38.800000000000004
- MRR@1000:38.858
- MRR@3:35.465
- MRR@5:37.057
- NDCG@1:29.467
- NDCG@10:39.796
- NDCG@100:44.531
- NDCG@1000:46.666000000000004
- NDCG@3:34.676
- NDCG@5:37.468
- 精确率@1:29.467
- 精确率@10:6.601999999999999
- 精确率@100:0.9900000000000001
- 精确率@1000:0.124
- 精确率@3:15.568999999999999
- 精确率@5:11.172
- 召回率@1:25.180000000000003
- 召回率@10:52.269
- 召回率@100:73.574
- 召回率@1000:89.141
- 召回率@3:38.522
- 召回率@5:45.323
- MTEB CQADupstackGisRetrieval
- MAP@1:16.303
- MAP@10:21.629
- MAP@100:22.387999999999998
- MAP@1000:22.489
- MAP@3:19.608
- MAP@5:20.774
- MRR@1:17.740000000000002
- MRR@10:23.214000000000002
- MRR@100:23.97
- MRR@1000:24.054000000000002
- MRR@3:21.243000000000002
- MRR@5:22.322
- NDCG@1:17.740000000000002
- NDCG@10:25.113000000000003
- NDCG@100:29.287999999999997
- NDCG@1000:32.204
- NDCG@3:21.111
- NDCG@5:23.061999999999998
- 精确率@1:17.740000000000002
- 精确率@10:3.955
- 精确率@100:0.644
- 精确率@1000:0.093
- 精确率@3:8.851
- 精确率@5:6.418
- 召回率@1:16.303
- 召回率@10:34.487
- 召回率@100:54.413999999999994
- 召回率@1000:77.158
- 召回率@3:23.733
- 召回率@5:28.381
- MTEB CQADupstackMathematicaRetrieval
- MAP@1:10.133000000000001
- MAP@10:15.665999999999999
- MAP@100:16.592000000000002
- MAP@1000:16.733999999999998
- MAP@3:13.625000000000002
- MAP@5:14.721
- MRR@1:12.562000000000001
- MRR@10:18.487000000000002
- MRR@100:19.391
- MRR@1000:19.487
- MRR@3:16.418
- MRR@5:17.599999999999998
- NDCG@1:12.562000000000001
- NDCG@10:19.43
- NDCG@100:24.546
- NDCG@1000:28.193
- NDCG@3:15.509999999999998
- NDCG@5:17.322000000000003
- 精确率@1:12.562000000000001
- 精确率@10:3.794
- 精确率@100:0.74
- 精确率@1000:0.122
- 精确率@3:7.546
- 精确率@5:5.721
- 召回率@1:10.133000000000001
- 召回率@10:28.261999999999997
- 召回率@100:51.742999999999995
- 召回率@1000:78.075
- 召回率@3:17.634
- 召回率@5:22.128999999999998
- MTEB CQADupstackPhysicsRetrieval
- MAP@1:19.991999999999997
- MAP@10:27.346999999999998
- MAP@100:28.582
- MAP@1000:28.716
- MAP@3:24.907
- MAP@5:26.1
- MRR@1:23.773
- MRR@10:31.647
- MRR@100:32.639
- MRR@1000:32.706
- MRR@3:29.195
- MRR@5:30.484
- NDCG@1:23.773
- NDCG@10:32.322
- NDCG@100:37.996
- NDCG@1000:40.819
- NDCG@3:27.876
- NDCG@5:29.664
- 精确率@1:23.773
- 精确率@10:5.976999999999999
- 精确率@100:1.055
- 精确率@1000:0.15
- 精确率@3:13.122
- 精确率@5:9.451
- 召回率@1:19.991999999999997
- 召回率@10:43.106
- 召回率@100:67.264
- 召回率@1000:86.386
- 召回率@3:30.392000000000003
- 召回率@5:34.910999999999994
- MTEB CQADupstackProgrammersRetrieval
- MAP@1:17.896
- MAP@10:24.644
- MAP@100:25.790000000000003
- MAP@1000:25.913999999999998
- MAP@3:22.694
- MAP@5:23.69
- MRR@1:21.346999999999998
- MRR@10:28.594
- MRR@100:29.543999999999997
- MRR@1000:29.621
- MRR@3:26.807
- MRR@5:27.669
- NDCG@1:21.346999999999998
- NDCG@10:28.833
- NDCG@100:34.272000000000006
- NDCG@1000:37.355
- NDCG@3:25.373
- NDCG@5:26.756
- 精确率@1:21.346999999999998
- 精确率@10:5.2170000000000005
- 精确率@100:0.954
- 精确率@1000:0.13899999999999998
- 精确率@3:11.948
- 精确率@5:8.425
- 召回率@1:17.896
- 召回率@10:37.291000000000004
- 召回率@100:61.138000000000005
- 召回率@1000:83.212
- 召回率@3:27.705999999999996
- 召回率@5:31.234
聚类任务
- MTEB ArxivClusteringP2P
- V-measure:39.70858340673288
- MTEB ArxivClusteringS2S
- V-measure:28.242847713721048
- MTEB BiorxivClusteringP2P
- V-measure:33.63260395543984
- MTEB BiorxivClusteringS2S
- V-measure:27.038042665369925
重排序任务
- MTEB AskUbuntuDupQuestions
- MAP:55.83700395192393
- MRR:70.3891307215407
语义文本相似度任务
- MTEB BIOSSES
- 余弦相似度皮尔逊相关系数:79.25366801756223
- 余弦相似度斯皮尔曼相关系数:75.20954502580506
- 欧几里得距离皮尔逊相关系数:78.79900722991617
- 欧几里得距离斯皮尔曼相关系数:77.79996549607588
- 曼哈顿距离皮尔逊相关系数:78.18408109480399
- 曼哈顿距离斯皮尔曼相关系数:76.85958262303106
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98