SGPT 125M Weightedmean Msmarco Specb Bitfit
模型概述
該模型主要用於句子相似度計算和特徵提取,支持多種語言的文本處理任務。
模型特點
多語言支持
支持包括英語、德語、西班牙語、法語、日語和中文在內的多種語言處理。
加權平均技術
採用加權平均方法優化句子表示,提升相似度計算性能。
bitfit優化
使用bitfit技術對模型進行微調,提高特定任務的性能。
模型能力
句子相似度計算
文本特徵提取
多語言文本處理
分類任務
聚類任務
檢索任務
使用案例
電子商務
產品評論分類
對亞馬遜等電商平臺的產品評論進行分類。
在MTEB Amazon評論分類任務中,英語準確率達到31.17%
反事實分類
識別亞馬遜產品描述中的反事實陳述。
在MTEB Amazon反事實分類任務中,英語準確率達到61.24%
學術研究
論文聚類
對arXiv和biorxiv上的學術論文進行聚類分析。
在MTEB Arxiv聚類P2P任務中V度量達到39.71
問答系統
重複問題識別
識別AskUbuntu論壇中的重複問題。
在MTEB AskUbuntu重複問題任務中平均精度達到55.84%
🚀 SGPT-125M-weightedmean-msmarco-specb-bitfit
SGPT-125M-weightedmean-msmarco-specb-bitfit 是一個用於句子相似度任務的模型,可用於文本分類、檢索、聚類等多種自然語言處理任務。以下是該模型在多個數據集上的詳細評估結果。
📚 詳細文檔
模型信息
屬性 | 詳情 |
---|---|
管道標籤 | 句子相似度 |
標籤 | 句子轉換器、特徵提取、句子相似度、MTEB |
模型名稱 | SGPT-125M-weightedmean-msmarco-specb-bitfit |
評估結果
分類任務
- MTEB AmazonCounterfactualClassification (en)
- 準確率:61.23880597014926
- 平均精度:25.854431650388644
- F1值:55.751862762818604
- MTEB AmazonCounterfactualClassification (de)
- 準確率:56.88436830835117
- 平均精度:72.67279104379772
- F1值:54.449840243786404
- MTEB AmazonCounterfactualClassification (en-ext)
- 準確率:58.27586206896551
- 平均精度:14.067357642500387
- F1值:48.172318518691334
- MTEB AmazonCounterfactualClassification (ja)
- 準確率:54.64668094218415
- 平均精度:11.776694555054965
- F1值:44.526622834078765
- MTEB AmazonPolarityClassification
- 準確率:65.401225
- 平均精度:60.22809958678552
- F1值:65.0251824898292
- MTEB AmazonReviewsClassification (en)
- 準確率:31.165999999999993
- F1值:30.908870050167437
- MTEB AmazonReviewsClassification (de)
- 準確率:24.79
- F1值:24.5833598854121
- MTEB AmazonReviewsClassification (es)
- 準確率:26.643999999999995
- F1值:26.39012792213563
- MTEB AmazonReviewsClassification (fr)
- 準確率:26.386000000000003
- F1值:26.276867791454873
- MTEB AmazonReviewsClassification (ja)
- 準確率:22.078000000000003
- F1值:21.797960290226843
- MTEB AmazonReviewsClassification (zh)
- 準確率:24.274
- F1值:23.887054434822627
- MTEB Banking77Classification
- 準確率:77.70454545454545
- F1值:77.6929000113803
檢索任務
- MTEB ArguAna
- MAP@1:22.404
- MAP@10:36.845
- MAP@100:37.945
- MAP@1000:37.966
- MAP@3:31.78
- MAP@5:34.608
- MRR@1:22.902
- MRR@10:37.034
- MRR@100:38.134
- MRR@1000:38.155
- MRR@3:31.935000000000002
- MRR@5:34.812
- NDCG@1:22.404
- NDCG@10:45.425
- NDCG@100:50.354
- NDCG@1000:50.873999999999995
- NDCG@3:34.97
- NDCG@5:40.081
- 精確率@1:22.404
- 精確率@10:7.303999999999999
- 精確率@100:0.951
- 精確率@1000:0.099
- 精確率@3:14.746
- 精確率@5:11.337
- 召回率@1:22.404
- 召回率@10:73.044
- 召回率@100:95.092
- 召回率@1000:99.075
- 召回率@3:44.239
- 召回率@5:56.686
- MTEB CQADupstackAndroidRetrieval
- MAP@1:22.139
- MAP@10:28.839
- MAP@100:30.023
- MAP@1000:30.153000000000002
- MAP@3:26.521
- MAP@5:27.775
- MRR@1:26.466
- MRR@10:33.495000000000005
- MRR@100:34.416999999999994
- MRR@1000:34.485
- MRR@3:31.402
- MRR@5:32.496
- NDCG@1:26.466
- NDCG@10:33.372
- NDCG@100:38.7
- NDCG@1000:41.696
- NDCG@3:29.443
- NDCG@5:31.121
- 精確率@1:26.466
- 精確率@10:6.037
- 精確率@100:1.0670000000000002
- 精確率@1000:0.16199999999999998
- 精確率@3:13.782
- 精確率@5:9.757
- 召回率@1:22.139
- 召回率@10:42.39
- 召回率@100:65.427
- 召回率@1000:86.04899999999999
- 召回率@3:31.127
- 召回率@5:35.717999999999996
- MTEB CQADupstackEnglishRetrieval
- MAP@1:20.652
- MAP@10:27.558
- MAP@100:28.473
- MAP@1000:28.577
- MAP@3:25.402
- MAP@5:26.68
- MRR@1:25.223000000000003
- MRR@10:31.966
- MRR@100:32.664
- MRR@1000:32.724
- MRR@3:30.074
- MRR@5:31.249
- NDCG@1:25.223000000000003
- NDCG@10:31.694
- NDCG@100:35.662
- NDCG@1000:38.092
- NDCG@3:28.294000000000004
- NDCG@5:30.049
- 精確率@1:25.223000000000003
- 精確率@10:5.777
- 精確率@100:0.9730000000000001
- 精確率@1000:0.13999999999999999
- 精確率@3:13.397
- 精確率@5:9.605
- 召回率@1:20.652
- 召回率@10:39.367999999999995
- 召回率@100:56.485
- 召回率@1000:73.292
- 召回率@3:29.830000000000002
- 召回率@5:34.43
- MTEB CQADupstackGamingRetrieval
- MAP@1:25.180000000000003
- MAP@10:34.579
- MAP@100:35.589999999999996
- MAP@1000:35.68
- MAP@3:31.735999999999997
- MAP@5:33.479
- MRR@1:29.467
- MRR@10:37.967
- MRR@100:38.800000000000004
- MRR@1000:38.858
- MRR@3:35.465
- MRR@5:37.057
- NDCG@1:29.467
- NDCG@10:39.796
- NDCG@100:44.531
- NDCG@1000:46.666000000000004
- NDCG@3:34.676
- NDCG@5:37.468
- 精確率@1:29.467
- 精確率@10:6.601999999999999
- 精確率@100:0.9900000000000001
- 精確率@1000:0.124
- 精確率@3:15.568999999999999
- 精確率@5:11.172
- 召回率@1:25.180000000000003
- 召回率@10:52.269
- 召回率@100:73.574
- 召回率@1000:89.141
- 召回率@3:38.522
- 召回率@5:45.323
- MTEB CQADupstackGisRetrieval
- MAP@1:16.303
- MAP@10:21.629
- MAP@100:22.387999999999998
- MAP@1000:22.489
- MAP@3:19.608
- MAP@5:20.774
- MRR@1:17.740000000000002
- MRR@10:23.214000000000002
- MRR@100:23.97
- MRR@1000:24.054000000000002
- MRR@3:21.243000000000002
- MRR@5:22.322
- NDCG@1:17.740000000000002
- NDCG@10:25.113000000000003
- NDCG@100:29.287999999999997
- NDCG@1000:32.204
- NDCG@3:21.111
- NDCG@5:23.061999999999998
- 精確率@1:17.740000000000002
- 精確率@10:3.955
- 精確率@100:0.644
- 精確率@1000:0.093
- 精確率@3:8.851
- 精確率@5:6.418
- 召回率@1:16.303
- 召回率@10:34.487
- 召回率@100:54.413999999999994
- 召回率@1000:77.158
- 召回率@3:23.733
- 召回率@5:28.381
- MTEB CQADupstackMathematicaRetrieval
- MAP@1:10.133000000000001
- MAP@10:15.665999999999999
- MAP@100:16.592000000000002
- MAP@1000:16.733999999999998
- MAP@3:13.625000000000002
- MAP@5:14.721
- MRR@1:12.562000000000001
- MRR@10:18.487000000000002
- MRR@100:19.391
- MRR@1000:19.487
- MRR@3:16.418
- MRR@5:17.599999999999998
- NDCG@1:12.562000000000001
- NDCG@10:19.43
- NDCG@100:24.546
- NDCG@1000:28.193
- NDCG@3:15.509999999999998
- NDCG@5:17.322000000000003
- 精確率@1:12.562000000000001
- 精確率@10:3.794
- 精確率@100:0.74
- 精確率@1000:0.122
- 精確率@3:7.546
- 精確率@5:5.721
- 召回率@1:10.133000000000001
- 召回率@10:28.261999999999997
- 召回率@100:51.742999999999995
- 召回率@1000:78.075
- 召回率@3:17.634
- 召回率@5:22.128999999999998
- MTEB CQADupstackPhysicsRetrieval
- MAP@1:19.991999999999997
- MAP@10:27.346999999999998
- MAP@100:28.582
- MAP@1000:28.716
- MAP@3:24.907
- MAP@5:26.1
- MRR@1:23.773
- MRR@10:31.647
- MRR@100:32.639
- MRR@1000:32.706
- MRR@3:29.195
- MRR@5:30.484
- NDCG@1:23.773
- NDCG@10:32.322
- NDCG@100:37.996
- NDCG@1000:40.819
- NDCG@3:27.876
- NDCG@5:29.664
- 精確率@1:23.773
- 精確率@10:5.976999999999999
- 精確率@100:1.055
- 精確率@1000:0.15
- 精確率@3:13.122
- 精確率@5:9.451
- 召回率@1:19.991999999999997
- 召回率@10:43.106
- 召回率@100:67.264
- 召回率@1000:86.386
- 召回率@3:30.392000000000003
- 召回率@5:34.910999999999994
- MTEB CQADupstackProgrammersRetrieval
- MAP@1:17.896
- MAP@10:24.644
- MAP@100:25.790000000000003
- MAP@1000:25.913999999999998
- MAP@3:22.694
- MAP@5:23.69
- MRR@1:21.346999999999998
- MRR@10:28.594
- MRR@100:29.543999999999997
- MRR@1000:29.621
- MRR@3:26.807
- MRR@5:27.669
- NDCG@1:21.346999999999998
- NDCG@10:28.833
- NDCG@100:34.272000000000006
- NDCG@1000:37.355
- NDCG@3:25.373
- NDCG@5:26.756
- 精確率@1:21.346999999999998
- 精確率@10:5.2170000000000005
- 精確率@100:0.954
- 精確率@1000:0.13899999999999998
- 精確率@3:11.948
- 精確率@5:8.425
- 召回率@1:17.896
- 召回率@10:37.291000000000004
- 召回率@100:61.138000000000005
- 召回率@1000:83.212
- 召回率@3:27.705999999999996
- 召回率@5:31.234
聚類任務
- MTEB ArxivClusteringP2P
- V-measure:39.70858340673288
- MTEB ArxivClusteringS2S
- V-measure:28.242847713721048
- MTEB BiorxivClusteringP2P
- V-measure:33.63260395543984
- MTEB BiorxivClusteringS2S
- V-measure:27.038042665369925
重排序任務
- MTEB AskUbuntuDupQuestions
- MAP:55.83700395192393
- MRR:70.3891307215407
語義文本相似度任務
- MTEB BIOSSES
- 餘弦相似度皮爾遜相關係數:79.25366801756223
- 餘弦相似度斯皮爾曼相關係數:75.20954502580506
- 歐幾里得距離皮爾遜相關係數:78.79900722991617
- 歐幾里得距離斯皮爾曼相關係數:77.79996549607588
- 曼哈頓距離皮爾遜相關係數:78.18408109480399
- 曼哈頓距離斯皮爾曼相關係數:76.85958262303106
Jina Embeddings V3
Jina Embeddings V3 是一個多語言句子嵌入模型,支持超過100種語言,專注於句子相似度和特徵提取任務。
文本嵌入
Transformers 支持多種語言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基於MS Marco段落排序任務訓練的交叉編碼器模型,用於信息檢索中的查詢-段落相關性評分
文本嵌入 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基於蒸餾技術的稀疏檢索模型,專為OpenSearch優化,支持免推理文檔編碼,在搜索相關性和效率上優於V1版本
文本嵌入
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基於PubMedBERT的生物醫學實體表徵模型,通過自對齊預訓練優化語義關係捕捉
文本嵌入 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一個強大的句子轉換器模型,專注於句子相似度和文本嵌入任務,在多個基準測試中表現出色。
文本嵌入 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一個英文句子轉換器模型,專注於句子相似度任務,在多個文本嵌入基準測試中表現優異。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一個多語言的句子嵌入模型,支持超過50種語言,適用於句子相似度計算等任務。
文本嵌入
Transformers 支持多種語言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一個化學語言模型,旨在實現完全由機器驅動的超快聚合物信息學。它將PSMILES字符串映射為600維密集指紋,以數值形式表示聚合物化學結構。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基於土耳其語BERT的句子嵌入模型,專為語義相似度任務優化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基於BAAI/bge-small-en-v1.5模型微調的文本嵌入模型,通過MEDI數據集與MTEB分類任務數據集訓練,優化了檢索任務的查詢編碼能力。
文本嵌入
Safetensors 英語
G
avsolatorio
945.68k
29
精選推薦AI模型
Llama 3 Typhoon V1.5x 8b Instruct
專為泰語設計的80億參數指令模型,性能媲美GPT-3.5-turbo,優化了應用場景、檢索增強生成、受限生成和推理任務
大型語言模型
Transformers 支持多種語言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一個基於SODA數據集訓練的超小型對話模型,專為邊緣設備推理設計,體積僅為Cosmo-3B模型的2%左右。
對話系統
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基於RoBERTa架構的中文抽取式問答模型,適用於從給定文本中提取答案的任務。
問答系統 中文
R
uer
2,694
98