SGPT-125M開源句子轉換器模型 - 免費部署精準完成句子相似度任務

首頁

SGPT 125M Weightedmean Msmarco Specb Bitfit

由Muennighoff開發

SGPT-125M是一個基於加權平均和bitfit技術優化的句子轉換器模型，專注於句子相似度任務。

文本嵌入

PyTorch

#多語言句子相似度 #文本分類優化 #低資源高效

下載量 4,086

發布時間 : 3/2/2022

模型概述

該模型主要用於句子相似度計算和特徵提取，支持多種語言的文本處理任務。

模型特點

多語言支持

支持包括英語、德語、西班牙語、法語、日語和中文在內的多種語言處理。

加權平均技術

採用加權平均方法優化句子表示，提升相似度計算性能。

bitfit優化

使用bitfit技術對模型進行微調，提高特定任務的性能。

模型能力

句子相似度計算

文本特徵提取

多語言文本處理

分類任務

聚類任務

檢索任務

使用案例

電子商務

產品評論分類

對亞馬遜等電商平臺的產品評論進行分類。

在MTEB Amazon評論分類任務中，英語準確率達到31.17%

反事實分類

識別亞馬遜產品描述中的反事實陳述。

在MTEB Amazon反事實分類任務中，英語準確率達到61.24%

學術研究

論文聚類

對arXiv和biorxiv上的學術論文進行聚類分析。

在MTEB Arxiv聚類P2P任務中V度量達到39.71

問答系統

重複問題識別

識別AskUbuntu論壇中的重複問題。

在MTEB AskUbuntu重複問題任務中平均精度達到55.84%

🚀 SGPT-125M-weightedmean-msmarco-specb-bitfit

SGPT-125M-weightedmean-msmarco-specb-bitfit 是一個用於句子相似度任務的模型，可用於文本分類、檢索、聚類等多種自然語言處理任務。以下是該模型在多個數據集上的詳細評估結果。

📚 詳細文檔

模型信息

屬性	詳情
管道標籤	句子相似度
標籤	句子轉換器、特徵提取、句子相似度、MTEB
模型名稱	SGPT-125M-weightedmean-msmarco-specb-bitfit

評估結果

分類任務

MTEB AmazonCounterfactualClassification (en)
- 準確率：61.23880597014926
- 平均精度：25.854431650388644
- F1值：55.751862762818604
MTEB AmazonCounterfactualClassification (de)
- 準確率：56.88436830835117
- 平均精度：72.67279104379772
- F1值：54.449840243786404
MTEB AmazonCounterfactualClassification (en-ext)
- 準確率：58.27586206896551
- 平均精度：14.067357642500387
- F1值：48.172318518691334
MTEB AmazonCounterfactualClassification (ja)
- 準確率：54.64668094218415
- 平均精度：11.776694555054965
- F1值：44.526622834078765
MTEB AmazonPolarityClassification
- 準確率：65.401225
- 平均精度：60.22809958678552
- F1值：65.0251824898292
MTEB AmazonReviewsClassification (en)
- 準確率：31.165999999999993
- F1值：30.908870050167437
MTEB AmazonReviewsClassification (de)
- 準確率：24.79
- F1值：24.5833598854121
MTEB AmazonReviewsClassification (es)
- 準確率：26.643999999999995
- F1值：26.39012792213563
MTEB AmazonReviewsClassification (fr)
- 準確率：26.386000000000003
- F1值：26.276867791454873
MTEB AmazonReviewsClassification (ja)
- 準確率：22.078000000000003
- F1值：21.797960290226843
MTEB AmazonReviewsClassification (zh)
- 準確率：24.274
- F1值：23.887054434822627
MTEB Banking77Classification
- 準確率：77.70454545454545
- F1值：77.6929000113803

檢索任務

MTEB ArguAna
- MAP@1：22.404
- MAP@10：36.845
- MAP@100：37.945
- MAP@1000：37.966
- MAP@3：31.78
- MAP@5：34.608
- MRR@1：22.902
- MRR@10：37.034
- MRR@100：38.134
- MRR@1000：38.155
- MRR@3：31.935000000000002
- MRR@5：34.812
- NDCG@1：22.404
- NDCG@10：45.425
- NDCG@100：50.354
- NDCG@1000：50.873999999999995
- NDCG@3：34.97
- NDCG@5：40.081
- 精確率@1：22.404
- 精確率@10：7.303999999999999
- 精確率@100：0.951
- 精確率@1000：0.099
- 精確率@3：14.746
- 精確率@5：11.337
- 召回率@1：22.404
- 召回率@10：73.044
- 召回率@100：95.092
- 召回率@1000：99.075
- 召回率@3：44.239
- 召回率@5：56.686
MTEB CQADupstackAndroidRetrieval
- MAP@1：22.139
- MAP@10：28.839
- MAP@100：30.023
- MAP@1000：30.153000000000002
- MAP@3：26.521
- MAP@5：27.775
- MRR@1：26.466
- MRR@10：33.495000000000005
- MRR@100：34.416999999999994
- MRR@1000：34.485
- MRR@3：31.402
- MRR@5：32.496
- NDCG@1：26.466
- NDCG@10：33.372
- NDCG@100：38.7
- NDCG@1000：41.696
- NDCG@3：29.443
- NDCG@5：31.121
- 精確率@1：26.466
- 精確率@10：6.037
- 精確率@100：1.0670000000000002
- 精確率@1000：0.16199999999999998
- 精確率@3：13.782
- 精確率@5：9.757
- 召回率@1：22.139
- 召回率@10：42.39
- 召回率@100：65.427
- 召回率@1000：86.04899999999999
- 召回率@3：31.127
- 召回率@5：35.717999999999996
MTEB CQADupstackEnglishRetrieval
- MAP@1：20.652
- MAP@10：27.558
- MAP@100：28.473
- MAP@1000：28.577
- MAP@3：25.402
- MAP@5：26.68
- MRR@1：25.223000000000003
- MRR@10：31.966
- MRR@100：32.664
- MRR@1000：32.724
- MRR@3：30.074
- MRR@5：31.249
- NDCG@1：25.223000000000003
- NDCG@10：31.694
- NDCG@100：35.662
- NDCG@1000：38.092
- NDCG@3：28.294000000000004
- NDCG@5：30.049
- 精確率@1：25.223000000000003
- 精確率@10：5.777
- 精確率@100：0.9730000000000001
- 精確率@1000：0.13999999999999999
- 精確率@3：13.397
- 精確率@5：9.605
- 召回率@1：20.652
- 召回率@10：39.367999999999995
- 召回率@100：56.485
- 召回率@1000：73.292
- 召回率@3：29.830000000000002
- 召回率@5：34.43
MTEB CQADupstackGamingRetrieval
- MAP@1：25.180000000000003
- MAP@10：34.579
- MAP@100：35.589999999999996
- MAP@1000：35.68
- MAP@3：31.735999999999997
- MAP@5：33.479
- MRR@1：29.467
- MRR@10：37.967
- MRR@100：38.800000000000004
- MRR@1000：38.858
- MRR@3：35.465
- MRR@5：37.057
- NDCG@1：29.467
- NDCG@10：39.796
- NDCG@100：44.531
- NDCG@1000：46.666000000000004
- NDCG@3：34.676
- NDCG@5：37.468
- 精確率@1：29.467
- 精確率@10：6.601999999999999
- 精確率@100：0.9900000000000001
- 精確率@1000：0.124
- 精確率@3：15.568999999999999
- 精確率@5：11.172
- 召回率@1：25.180000000000003
- 召回率@10：52.269
- 召回率@100：73.574
- 召回率@1000：89.141
- 召回率@3：38.522
- 召回率@5：45.323
MTEB CQADupstackGisRetrieval
- MAP@1：16.303
- MAP@10：21.629
- MAP@100：22.387999999999998
- MAP@1000：22.489
- MAP@3：19.608
- MAP@5：20.774
- MRR@1：17.740000000000002
- MRR@10：23.214000000000002
- MRR@100：23.97
- MRR@1000：24.054000000000002
- MRR@3：21.243000000000002
- MRR@5：22.322
- NDCG@1：17.740000000000002
- NDCG@10：25.113000000000003
- NDCG@100：29.287999999999997
- NDCG@1000：32.204
- NDCG@3：21.111
- NDCG@5：23.061999999999998
- 精確率@1：17.740000000000002
- 精確率@10：3.955
- 精確率@100：0.644
- 精確率@1000：0.093
- 精確率@3：8.851
- 精確率@5：6.418
- 召回率@1：16.303
- 召回率@10：34.487
- 召回率@100：54.413999999999994
- 召回率@1000：77.158
- 召回率@3：23.733
- 召回率@5：28.381
MTEB CQADupstackMathematicaRetrieval
- MAP@1：10.133000000000001
- MAP@10：15.665999999999999
- MAP@100：16.592000000000002
- MAP@1000：16.733999999999998
- MAP@3：13.625000000000002
- MAP@5：14.721
- MRR@1：12.562000000000001
- MRR@10：18.487000000000002
- MRR@100：19.391
- MRR@1000：19.487
- MRR@3：16.418
- MRR@5：17.599999999999998
- NDCG@1：12.562000000000001
- NDCG@10：19.43
- NDCG@100：24.546
- NDCG@1000：28.193
- NDCG@3：15.509999999999998
- NDCG@5：17.322000000000003
- 精確率@1：12.562000000000001
- 精確率@10：3.794
- 精確率@100：0.74
- 精確率@1000：0.122
- 精確率@3：7.546
- 精確率@5：5.721
- 召回率@1：10.133000000000001
- 召回率@10：28.261999999999997
- 召回率@100：51.742999999999995
- 召回率@1000：78.075
- 召回率@3：17.634
- 召回率@5：22.128999999999998
MTEB CQADupstackPhysicsRetrieval
- MAP@1：19.991999999999997
- MAP@10：27.346999999999998
- MAP@100：28.582
- MAP@1000：28.716
- MAP@3：24.907
- MAP@5：26.1
- MRR@1：23.773
- MRR@10：31.647
- MRR@100：32.639
- MRR@1000：32.706
- MRR@3：29.195
- MRR@5：30.484
- NDCG@1：23.773
- NDCG@10：32.322
- NDCG@100：37.996
- NDCG@1000：40.819
- NDCG@3：27.876
- NDCG@5：29.664
- 精確率@1：23.773
- 精確率@10：5.976999999999999
- 精確率@100：1.055
- 精確率@1000：0.15
- 精確率@3：13.122
- 精確率@5：9.451
- 召回率@1：19.991999999999997
- 召回率@10：43.106
- 召回率@100：67.264
- 召回率@1000：86.386
- 召回率@3：30.392000000000003
- 召回率@5：34.910999999999994
MTEB CQADupstackProgrammersRetrieval
- MAP@1：17.896
- MAP@10：24.644
- MAP@100：25.790000000000003
- MAP@1000：25.913999999999998
- MAP@3：22.694
- MAP@5：23.69
- MRR@1：21.346999999999998
- MRR@10：28.594
- MRR@100：29.543999999999997
- MRR@1000：29.621
- MRR@3：26.807
- MRR@5：27.669
- NDCG@1：21.346999999999998
- NDCG@10：28.833
- NDCG@100：34.272000000000006
- NDCG@1000：37.355
- NDCG@3：25.373
- NDCG@5：26.756
- 精確率@1：21.346999999999998
- 精確率@10：5.2170000000000005
- 精確率@100：0.954
- 精確率@1000：0.13899999999999998
- 精確率@3：11.948
- 精確率@5：8.425
- 召回率@1：17.896
- 召回率@10：37.291000000000004
- 召回率@100：61.138000000000005
- 召回率@1000：83.212
- 召回率@3：27.705999999999996
- 召回率@5：31.234

聚類任務

MTEB ArxivClusteringP2P
- V-measure：39.70858340673288
MTEB ArxivClusteringS2S
- V-measure：28.242847713721048
MTEB BiorxivClusteringP2P
- V-measure：33.63260395543984
MTEB BiorxivClusteringS2S
- V-measure：27.038042665369925

重排序任務

MTEB AskUbuntuDupQuestions
- MAP：55.83700395192393
- MRR：70.3891307215407

語義文本相似度任務

MTEB BIOSSES
- 餘弦相似度皮爾遜相關係數：79.25366801756223
- 餘弦相似度斯皮爾曼相關係數：75.20954502580506
- 歐幾里得距離皮爾遜相關係數：78.79900722991617
- 歐幾里得距離斯皮爾曼相關係數：77.79996549607588
- 曼哈頓距離皮爾遜相關係數：78.18408109480399
- 曼哈頓距離斯皮爾曼相關係數：76.85958262303106