SGPT 5.8B Weightedmean Msmarco Specb Bitfit
S
SGPT 5.8B Weightedmean Msmarco Specb Bitfit
Muennighoffによって開発
SGPT-5.8Bは加重平均法に基づく文変換モデルで、文の類似度タスクに特化しており、msmarcoデータセットで訓練され、specb-bitfit技術を適用して最適化されています。
ダウンロード数 164
リリース時間 : 3/2/2022
モデル概要
このモデルは主に文の類似度計算と特徴抽出に使用され、MTEBベンチマークテストで優れた性能を発揮し、さまざまな自然言語処理タスクをサポートします。
モデル特徴
加重平均法
加重平均技術を用いて文の表現を統合し、意味理解能力を向上させます。
msmarcoデータセットでの訓練
大規模なmsmarcoデータセットを使用して訓練され、モデルの汎化能力を強化します。
specb-bitfit最適化
specb-bitfit技術を適用してモデルを最適化し、計算効率を向上させます。
マルチタスク性能
MTEBベンチマークテストのさまざまなタスクで優れた性能を発揮します。
モデル能力
文の類似度計算
テキスト特徴抽出
意味検索
テキスト分類
クラスタリング分析
質問応答の再ランキング
使用事例
電子商取引
商品レビュー分類
Amazonの商品レビューに対して感情分析と分類を行います。
MTEB Amazonレビュー分類タスクで39.19%の正解率を達成しました。
反事実分析
Amazonプラットフォーム上の反事実レビューを識別します。
MTEB Amazon反事実分類タスクで69.22%の正解率を達成しました。
学術研究
論文クラスタリング
arXivとBioRxivの学術論文に対してトピッククラスタリングを行います。
arXiv P2PクラスタリングタスクでVメトリックが45.59に達しました。
技術サポート
重複質問検出
AskUbuntuフォーラム内の重複する技術的な質問を識別します。
再ランキングタスクで平均精度が61.63%に達しました。
🚀 SGPT-5.8B-weightedmean-msmarco-specb-bitfit
このモデルは文の類似度を計算するためのもので、sentence-transformersを利用した特徴抽出や文の類似度計算に使用できます。MTEBの様々なタスクで評価されています。
📚 詳細ドキュメント
モデル情報
属性 | 詳情 |
---|---|
パイプラインタグ | 文の類似度 |
タグ | sentence-transformers、特徴抽出、文の類似度、mteb |
モデル名 | SGPT-5.8B-weightedmean-msmarco-specb-bitfit |
評価結果
分類タスク
- MTEB AmazonCounterfactualClassification (en)
- 正解率 (accuracy): 69.22388059701493
- 平均適合率 (ap): 32.04724673950256
- F1スコア (f1): 63.25719825770428
- MTEB AmazonPolarityClassification
- 正解率 (accuracy): 71.26109999999998
- 平均適合率 (ap): 66.16336378255403
- F1スコア (f1): 70.89719145825303
- MTEB AmazonReviewsClassification (en)
- 正解率 (accuracy): 39.19199999999999
- F1スコア (f1): 38.580766731113826
- MTEB Banking77Classification
- 正解率 (accuracy): 84.49350649350649
- F1スコア (f1): 84.4249343233736
検索タスク
- MTEB ArguAna
- MAP@1: 27.311999999999998
- MAP@10: 42.620000000000005
- MAP@100: 43.707
- MAP@1000: 43.714999999999996
- MAP@3: 37.624
- MAP@5: 40.498
- MRR@1: 27.667
- MRR@10: 42.737
- MRR@100: 43.823
- MRR@1000: 43.830999999999996
- MRR@3: 37.743
- MRR@5: 40.616
- NDCG@1: 27.311999999999998
- NDCG@10: 51.37500000000001
- NDCG@100: 55.778000000000006
- NDCG@1000: 55.96600000000001
- NDCG@3: 41.087
- NDCG@5: 46.269
- Precision@1: 27.311999999999998
- Precision@10: 7.945
- Precision@100: 0.9820000000000001
- Precision@1000: 0.1
- Precision@3: 17.046
- Precision@5: 12.745000000000001
- Recall@1: 27.311999999999998
- Recall@10: 79.445
- Recall@100: 98.151
- Recall@1000: 99.57300000000001
- Recall@3: 51.13799999999999
- Recall@5: 63.727000000000004
- MTEB CQADupstackAndroidRetrieval
- MAP@1: 30.499
- MAP@10: 41.208
- MAP@100: 42.638
- MAP@1000: 42.754
- MAP@3: 37.506
- MAP@5: 39.422000000000004
- MRR@1: 37.339
- MRR@10: 47.051
- MRR@100: 47.745
- MRR@1000: 47.786
- MRR@3: 44.086999999999996
- MRR@5: 45.711
- NDCG@1: 37.339
- NDCG@10: 47.666
- NDCG@100: 52.994
- NDCG@1000: 54.928999999999995
- NDCG@3: 41.982
- NDCG@5: 44.42
- Precision@1: 37.339
- Precision@10: 9.127
- Precision@100: 1.4749999999999999
- Precision@1000: 0.194
- Precision@3: 20.076
- Precision@5: 14.449000000000002
- Recall@1: 30.499
- Recall@10: 60.328
- Recall@100: 82.57900000000001
- Recall@1000: 95.074
- Recall@3: 44.17
- Recall@5: 50.94
- MTEB CQADupstackEnglishRetrieval
- MAP@1: 30.613
- MAP@10: 40.781
- MAP@100: 42.018
- MAP@1000: 42.132999999999996
- MAP@3: 37.816
- MAP@5: 39.389
- MRR@1: 38.408
- MRR@10: 46.631
- MRR@100: 47.332
- MRR@1000: 47.368
- MRR@3: 44.384
- MRR@5: 45.661
- NDCG@1: 38.408
- NDCG@10: 46.379999999999995
- NDCG@100: 50.81
- NDCG@1000: 52.663000000000004
- NDCG@3: 42.18
- NDCG@5: 43.974000000000004
- Precision@1: 38.408
- Precision@10: 8.656
- Precision@100: 1.3860000000000001
- Precision@1000: 0.184
- Precision@3: 20.276
- Precision@5: 14.241999999999999
- Recall@1: 30.613
- Recall@10: 56.44
- Recall@100: 75.044
- Recall@1000: 86.426
- Recall@3: 43.766
- Recall@5: 48.998000000000005
- MTEB CQADupstackGamingRetrieval
- MAP@1: 37.370999999999995
- MAP@10: 49.718
- MAP@100: 50.737
- MAP@1000: 50.79
- MAP@3: 46.231
- MAP@5: 48.329
- MRR@1: 42.884
- MRR@10: 53.176
- MRR@100: 53.81700000000001
- MRR@1000: 53.845
- MRR@3: 50.199000000000005
- MRR@5: 52.129999999999995
- NDCG@1: 42.884
- NDCG@10: 55.826
- NDCG@100: 59.93000000000001
- NDCG@1000: 61.013
- NDCG@3: 49.764
- NDCG@5: 53.025999999999996
- Precision@1: 42.884
- Precision@10: 9.046999999999999
- Precision@100: 1.212
- Precision@1000: 0.135
- Precision@3: 22.131999999999998
- Precision@5: 15.524
- Recall@1: 37.370999999999995
- Recall@10: 70.482
- Recall@100: 88.425
- Recall@1000: 96.03399999999999
- Recall@3: 54.43
- Recall@5: 62.327999999999996
- MTEB CQADupstackGisRetrieval
- MAP@1: 22.875999999999998
- MAP@10: 31.715
- MAP@100: 32.847
- MAP@1000: 32.922000000000004
- MAP@3: 29.049999999999997
- MAP@5: 30.396
- MRR@1: 24.52
- MRR@10: 33.497
- MRR@100: 34.455000000000005
- MRR@1000: 34.510000000000005
- MRR@3: 30.791
- MRR@5: 32.175
- NDCG@1: 24.52
- NDCG@10: 36.95
- NDCG@100: 42.238
- NDCG@1000: 44.147999999999996
- NDCG@3: 31.435000000000002
- NDCG@5: 33.839000000000006
- Precision@1: 24.52
- Precision@10: 5.9319999999999995
- Precision@100: 0.901
- Precision@1000: 0.11
- Precision@3: 13.446
- Precision@5: 9.469
- Recall@1: 22.875999999999998
- Recall@10: 51.38
- Recall@100: 75.31099999999999
- Recall@1000: 89.718
- Recall@3: 36.26
- Recall@5: 42.248999999999995
- MTEB CQADupstackMathematicaRetrieval
- MAP@1: 14.984
- MAP@10: 23.457
- MAP@100: 24.723
- MAP@1000: 24.846
- MAP@3: 20.873
- MAP@5: 22.357
- MRR@1: 18.159
- MRR@10: 27.431
- MRR@100: 28.449
- MRR@1000: 28.52
- MRR@3: 24.979000000000003
- MRR@5: 26.447
- NDCG@1: 18.159
- NDCG@10: 28.627999999999997
- NDCG@100: 34.741
- NDCG@1000: 37.516
- NDCG@3: 23.902
- NDCG@5: 26.294
- Precision@1: 18.159
- Precision@10: 5.485
- Precision@100: 0.985
- Precision@1000: 0.136
- Precision@3: 11.774
- Precision@5: 8.731
- Recall@1: 14.984
- Recall@10: 40.198
- Recall@100: 67.11500000000001
- Recall@1000: 86.497
- Recall@3: 27.639000000000003
- Recall@5: 33.595000000000006
- MTEB CQADupstackPhysicsRetrieval
- MAP@1: 29.067
- MAP@10: 39.457
- MAP@100: 40.83
- MAP@1000: 40.94
- MAP@3: 35.995
- MAP@5: 38.159
- MRR@1: 34.937000000000005
- MRR@10: 44.755
- MRR@100: 45.549
- MRR@1000: 45.589
- MRR@3: 41.947
- MRR@5: 43.733
- NDCG@1: 34.937000000000005
- NDCG@10: 45.573
- NDCG@100: 51.266999999999996
- NDCG@1000: 53.184
- NDCG@3: 39.961999999999996
- NDCG@5: 43.02
- Precision@1: 34.937000000000005
- Precision@10: 8.296000000000001
- Precision@100: 1.32
- Precision@1000: 0.167
- Precision@3: 18.8
- Precision@5: 13.763
- Recall@1: 29.067
- Recall@10: 58.298
- Recall@100: 82.25099999999999
- Recall@1000: 94.476
- Recall@3: 42.984
- Recall@5: 50.658
- MTEB CQADupstackProgrammersRetrieval
- MAP@1: 25.985999999999997
- MAP@10: 35.746
- MAP@100: 37.067
- MAP@1000: 37.191
- MAP@3: 32.599000000000004
- MAP@5: 34.239000000000004
- MRR@1: 31.735000000000003
- MRR@10: 40.515
- MRR@100: 41.459
- MRR@1000: 41.516
- MRR@3: 37.938
- MRR@5: 39.25
- NDCG@1: 31.735000000000003
- NDCG@10: 41.484
- NDCG@100: 47.047
- NDCG@1000: 49.427
- NDCG@3: 36.254999999999995
- NDCG@5: 38.375
- Precision@1: 31.735000000000003
- Precision@10: 7.66
- Precision@100: 1.234
- Precision@1000: 0.16
- Precision@3: 17.427999999999997
- Precision@5: 12.328999999999999
- Recall@1: 25.985999999999997
- Recall@10: 53.761
- Recall@100: 77.149
- Recall@1000: 93.342
- Recall@3: 39.068000000000005
- Recall@5: 44.693
- MTEB CQADupstackRetrieval
- MAP@1: 24.949749999999998
- MAP@10: 34.04991666666667
- MAP@100: 35.26825
- MAP@1000: 35.38316666666667
- MAP@3: 31.181333333333335
- MAP@5: 32.77391666666667
- MRR@1: 29.402833333333334
- MRR@10: 38.01633333333333
- MRR@100: 38.88033333333334
- MRR@1000: 38.938500000000005
- MRR@3: 35.5175
- MRR@5: 36.93808333333333
- NDCG@1: 29.402833333333334
- NDCG@10: 39.403166666666664
- NDCG@100: 44.66408333333333
- NDCG@1000: 46.96283333333333
- NDCG@3: 34.46633333333334
- NDCG@5: 36.78441666666667
- Precision@1: 29.402833333333334
- Precision@10: 6.965833333333333
- Precision@100: 1.1330833333333334
- Precision@1000: 0.15158333333333335
- Precision@3: 15.886666666666665
- Precision@5: 11.360416666666667
- Recall@1: 24.949749999999998
- Recall@10: 51.29325
- Recall@100: 74.3695
- Recall@1000: 90.31299999999999
- Recall@3: 37.580083333333334
- Recall@5: 43.529666666666664
- MTEB CQADupstackStatsRetrieval
- MAP@1: 22.081999999999997
- MAP@10: 29.215999999999998
- MAP@100: 30.163
- MAP@1000: 30.269000000000002
- MAP@3: 26.942
- MAP@5: 28.236
- MRR@1: 24.847
- MRR@10: 31.918999999999997
- MRR@100: 32.817
- MRR@1000: 32.897
- MRR@3: 29.831000000000003
- MRR@5: 31.019999999999996
- NDCG@1: 24.847
- NDCG@10: 33.4
- NDCG@100: 38.354
- NDCG@1000: 41.045
- NDCG@3: 29.236
- NDCG@5: 31.258000000000003
- Precision@1: 24.847
- Precision@10: 5.353
- Precision@100: 0.853
- Precision@1000: 0.116
- Precision@3: 12.982
- Precision@5: 8.697
- Recall@1: 22.081999999999997
- Recall@10: 48.694
- Recall@100: 71.737
- Recall@1000: 87.325
- Recall@3: 34.287
- Recall@5: 39.264
クラスタリングタスク
- MTEB ArxivClusteringP2P
- V-measure: 45.59037428592033
- MTEB ArxivClusteringS2S
- V-measure: 38.86371701986363
- MTEB BiorxivClusteringP2P
- V-measure: 36.551459722989385
- MTEB BiorxivClusteringS2S
- V-measure: 33.69901851846774
再ランキングタスク
- MTEB AskUbuntuDupQuestions
- MAP: 61.625568691427766
- MRR: 75.83256386580486
STSタスク
- MTEB BIOSSES
- コサイン類似度のピアソン相関係数 (cos_sim_pearson): 89.96074355094802
- コサイン類似度のスピアマン相関係数 (cos_sim_spearman): 86.2501580394454
- ユークリッド距離のピアソン相関係数 (euclidean_pearson): 82.18427440380462
- ユークリッド距離のスピアマン相関係数 (euclidean_spearman): 80.14760935017947
- マンハッタン距離のピアソン相関係数 (manhattan_pearson): 82.24621578156392
- マンハッタン距離のスピアマン相関係数 (manhattan_spearman): 80.00363016590163
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98