SGPT 2.7B Weightedmean Msmarco Specb Bitfit
模型概述
該模型主要用於句子相似度計算和特徵提取任務,在MTEB基準測試中表現良好,適用於多種文本分類和檢索場景。
模型特點
加權平均方法
採用加權平均技術處理句子表示,提高相似度計算精度
BitFit技術
應用BitFit參數高效微調方法,在保持性能的同時減少計算資源需求
多任務適應
在MTEB基準測試的多種任務上表現良好,包括分類、聚類和檢索
模型能力
句子相似度計算
文本特徵提取
文本分類
信息檢索
文本聚類
使用案例
電子商務
產品評論分類
對Amazon產品評論進行情感極性分類
在MTEB Amazon極性分類任務中達到71.44%準確率
反事實評論檢測
識別Amazon平臺上的反事實評論
在MTEB Amazon反事實分類任務中達到67.57%準確率
金融
銀行客服分類
對銀行客戶服務查詢進行分類
在MTEB Banking77分類任務中達到83.22%準確率
學術
論文聚類
對Arxiv學術論文進行主題聚類
在MTEB Arxiv聚類P2P任務中V度量達到44.72
🚀 SGPT-2.7B加權平均-msmarco-specb-bitfit
該模型主要用於句子相似度計算,具備特徵提取等功能,在多個句子處理相關的任務和數據集上進行了測試,並展示了相應的性能指標。
📚 詳細文檔
模型標籤與類型
屬性 | 詳情 |
---|---|
管道標籤 | 句子相似度 |
標籤 | 句子轉換器、特徵提取、句子相似度、MTEB |
模型指標詳情
模型名為 SGPT-2.7B-weightedmean-msmarco-specb-bitfit
,在多個任務和數據集上的表現如下:
分類任務
- MTEB AmazonCounterfactualClassification (en)
- 準確率:67.56716417910448
- 平均精度:30.75574629595259
- F1值:61.805121301858655
- MTEB AmazonPolarityClassification
- 準確率:71.439575
- 平均精度:65.91341330532453
- F1值:70.90561852619555
- MTEB AmazonReviewsClassification (en)
- 準確率:35.748000000000005
- F1值:35.48576287186347
- MTEB Banking77Classification
- 準確率:83.21753246753246
- F1值:83.15394543120915
檢索任務
- MTEB ArguAna
- MAP@1:25.96
- MAP@10:41.619
- MAP@100:42.673
- MAP@1000:42.684
- MAP@3:36.569
- MAP@5:39.397
- MRR@1:26.316
- MRR@10:41.772
- MRR@100:42.82
- MRR@1000:42.83
- MRR@3:36.724000000000004
- MRR@5:39.528999999999996
- NDCG@1:25.96
- NDCG@10:50.491
- NDCG@100:54.864999999999995
- NDCG@1000:55.10699999999999
- NDCG@3:40.053
- NDCG@5:45.134
- 精度@1:25.96
- 精度@10:7.8950000000000005
- 精度@100:0.9780000000000001
- 精度@1000:0.1
- 精度@3:16.714000000000002
- 精度@5:12.489
- 召回率@1:25.96
- 召回率@10:78.947
- 召回率@100:97.795
- 召回率@1000:99.644
- 召回率@3:50.141999999999996
- 召回率@5:62.446999999999996
- MTEB CQADupstackAndroidRetrieval
- MAP@1:30.808999999999997
- MAP@10:40.617
- MAP@100:41.894999999999996
- MAP@1000:42.025
- MAP@3:37.0
- MAP@5:38.993
- MRR@1:37.482
- MRR@10:46.497
- MRR@100:47.144000000000005
- MRR@1000:47.189
- MRR@3:43.705
- MRR@5:45.193
- NDCG@1:37.482
- NDCG@10:46.688
- NDCG@100:51.726000000000006
- NDCG@1000:53.825
- NDCG@3:41.242000000000004
- NDCG@5:43.657000000000004
- 精度@1:37.482
- 精度@10:8.827
- 精度@100:1.393
- 精度@1000:0.186
- 精度@3:19.361
- 精度@5:14.106
- 召回率@1:30.808999999999997
- 召回率@10:58.47
- 召回率@100:80.51899999999999
- 召回率@1000:93.809
- 召回率@3:42.462
- 召回率@5:49.385
- MTEB CQADupstackEnglishRetrieval
- MAP@1:26.962000000000003
- MAP@10:36.93
- MAP@100:38.102000000000004
- MAP@1000:38.22
- MAP@3:34.065
- MAP@5:35.72
- MRR@1:33.567
- MRR@10:42.269
- MRR@100:42.99
- MRR@1000:43.033
- MRR@3:40.064
- MRR@5:41.258
- NDCG@1:33.567
- NDCG@10:42.405
- NDCG@100:46.847
- NDCG@1000:48.951
- NDCG@3:38.312000000000005
- NDCG@5:40.242
- 精度@1:33.567
- 精度@10:8.032
- 精度@100:1.295
- 精度@1000:0.17600000000000002
- 精度@3:18.662
- 精度@5:13.299
- 召回率@1:26.962000000000003
- 召回率@10:52.489
- 召回率@100:71.635
- 召回率@1000:85.141
- 召回率@3:40.28
- 召回率@5:45.757
- MTEB CQADupstackGamingRetrieval
- MAP@1:36.318
- MAP@10:47.97
- MAP@100:49.003
- MAP@1000:49.065999999999995
- MAP@3:45.031
- MAP@5:46.633
- MRR@1:41.504999999999995
- MRR@10:51.431000000000004
- MRR@100:52.129000000000005
- MRR@1000:52.161
- MRR@3:48.934
- MRR@5:50.42
- NDCG@1:41.504999999999995
- NDCG@10:53.676
- NDCG@100:57.867000000000004
- NDCG@1000:59.166
- NDCG@3:48.516
- NDCG@5:50.983999999999995
- 精度@1:41.504999999999995
- 精度@10:8.608
- 精度@100:1.1560000000000001
- 精度@1000:0.133
- 精度@3:21.462999999999997
- 精度@5:14.721
- 召回率@1:36.318
- 召回率@10:67.066
- 召回率@100:85.34
- 召回率@1000:94.491
- 召回率@3:53.215999999999994
- 召回率@5:59.214
- MTEB CQADupstackGisRetrieval
- MAP@1:22.167
- MAP@10:29.543999999999997
- MAP@100:30.579
- MAP@1000:30.669999999999998
- MAP@3:26.982
- MAP@5:28.474
- MRR@1:24.068
- MRR@10:31.237
- MRR@100:32.222
- MRR@1000:32.292
- MRR@3:28.776000000000003
- MRR@5:30.233999999999998
- NDCG@1:24.068
- NDCG@10:33.973
- NDCG@100:39.135
- NDCG@1000:41.443999999999996
- NDCG@3:29.018
- NDCG@5:31.558999999999997
- 精度@1:24.068
- 精度@10:5.299
- 精度@100:0.823
- 精度@1000:0.106
- 精度@3:12.166
- 精度@5:8.767999999999999
- 召回率@1:22.167
- 召回率@10:46.115
- 召回率@100:69.867
- 召回率@1000:87.234
- 召回率@3:32.798
- 召回率@5:38.951
- MTEB CQADupstackMathematicaRetrieval
- MAP@1:12.033000000000001
- MAP@10:19.314
- MAP@100:20.562
- MAP@1000:20.695
- MAP@3:16.946
- MAP@5:18.076999999999998
- MRR@1:14.801
- MRR@10:22.74
- MRR@100:23.876
- MRR@1000:23.949
- MRR@3:20.211000000000002
- MRR@5:21.573
- NDCG@1:14.801
- NDCG@10:24.038
- NDCG@100:30.186
- NDCG@1000:33.321
- NDCG@3:19.431
- NDCG@5:21.34
- 精度@1:14.801
- 精度@10:4.776
- 精度@100:0.897
- 精度@1000:0.133
- 精度@3:9.66
- 精度@5:7.239
- 召回率@1:12.033000000000001
- 召回率@10:35.098
- 召回率@100:62.175000000000004
- 召回率@1000:84.17099999999999
- 召回率@3:22.61
- 召回率@5:27.278999999999996
- MTEB CQADupstackPhysicsRetrieval
- MAP@1:26.651000000000003
- MAP@10:36.901
- MAP@100:38.249
- MAP@1000:38.361000000000004
- MAP@3:33.891
- MAP@5:35.439
- MRR@1:32.724
- MRR@10:42.504
- MRR@100:43.391999999999996
- MRR@1000:43.436
- MRR@3:39.989999999999995
- MRR@5:41.347
- NDCG@1:32.724
- NDCG@10:43.007
- NDCG@100:48.601
- NDCG@1000:50.697
- NDCG@3:37.99
- NDCG@5:40.083999999999996
- 精度@1:32.724
- 精度@10:7.872999999999999
- 精度@100:1.247
- 精度@1000:0.16199999999999998
- 精度@3:18.062
- 精度@5:12.666
- 召回率@1:26.651000000000003
- 召回率@10:55.674
- 召回率@100:78.904
- 召回率@1000:92.55799999999999
- 召回率@3:41.36
- 召回率@5:46.983999999999995
- MTEB CQADupstackProgrammersRetrieval
- MAP@1:22.589000000000002
- MAP@10:32.244
- MAP@100:33.46
- MAP@1000:33.593
- MAP@3:29.21
- MAP@5:31.019999999999996
- MRR@1:28.425
- MRR@10:37.282
- MRR@100:38.187
- MRR@1000:38.248
- MRR@3:34.684
- MRR@5:36.123
- NDCG@1:28.425
- NDCG@10:37.942
- NDCG@100:43.443
- NDCG@1000:45.995999999999995
- NDCG@3:32.873999999999995
- NDCG@5:35.325
- 精度@1:28.425
- 精度@10:7.1
- 精度@100:1.166
- 精度@1000:0.158
- 精度@3:16.02
- 精度@5:11.644
- 召回率@1:22.589000000000002
- 召回率@10:50.03999999999999
- 召回率@100:73.973
- 召回率@1000:91.128
- 召回率@3:35.882999999999996
- 召回率@5:42.187999999999995
- MTEB CQADupstackRetrieval
- MAP@1:23.190833333333334
- MAP@10:31.504916666666666
- MAP@100:32.64908333333334
- MAP@1000:32.77075
- MAP@3:28.82575
- MAP@5:30.2755
- MRR@1:27.427499999999995
- MRR@10:35.36483333333334
- MRR@100:36.23441666666666
- MRR@1000:36.297583333333336
- MRR@3:32.97966666666667
- MRR@5:34.294583333333335
- NDCG@1:27.427499999999995
- NDCG@10:36.53358333333333
- NDCG@100:41.64508333333333
- NDCG@1000:44.14499999999999
- NDCG@3:31.88908333333333
- NDCG@5:33.98433333333333
- 精度@1:27.427499999999995
- 精度@10:6.481083333333333
- 精度@100:1.0610833333333334
- 精度@1000:0.14691666666666667
- 精度@3:14.656749999999999
- 精度@5:10.493583333333332
- 召回率@1:23.190833333333334
- 召回率@10:47.65175
- 召回率@100:70.41016666666667
- 召回率@1000:87.82708333333332
- 召回率@3:34.637583333333325
- 召回率@5:40.05008333333333
- MTEB CQADupstackStatsRetrieval
- MAP@1:20.409
- MAP@10:26.794
- MAP@100:27.682000000000002
- MAP@1000:27.783
- MAP@3:24.461
- MAP@5:25.668000000000003
- MRR@1:22.853
- MRR@10:29.296
- MRR@100:30.103
- MRR@1000:30.179000000000002
- MRR@3:27.173000000000002
- MRR@5:28.223
- NDCG@1:22.853
- NDCG@10:31.007
- NDCG@100:35.581
- NDCG@1000:38.147
- NDCG@3:26.590999999999998
- NDCG@5:28.43
- 精度@1:22.853
- 精度@10:5.031
- 精度@100:0.7939999999999999
- 精度@1000:0.11
- 精度@3:11.401
- 精度@5:8.16
- 召回率@1:20.409
- 召回率@10:41.82
- 召回率@100:63.57
- 召回率@1000:81.67
- 召回率@3:30.61
- 召回率@5:36.22
聚類任務
- MTEB ArxivClusteringP2P
- V-measure:44.72125714642202
- MTEB ArxivClusteringS2S
- V-measure:35.081451519142064
- MTEB BiorxivClusteringP2P
- V-measure:34.41414219680629
- MTEB BiorxivClusteringS2S
- V-measure:30.533275862270028
重排序任務
- MTEB AskUbuntuDupQuestions
- MAP:59.634661990392054
- MRR:73.6813525040672
語義文本相似度任務
- MTEB BIOSSES
- 餘弦相似度皮爾遜相關係數:87.42754550496836
- 餘弦相似度斯皮爾曼相關係數:84.84289705838664
- 歐幾里得距離皮爾遜相關係數:85.59331970450859
- 歐幾里得距離斯皮爾曼相關係數:85.8525586184271
- 曼哈頓距離皮爾遜相關係數:85.41233134466698
- 曼哈頓距離斯皮爾曼相關係數:85.52303303767404
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98