SGPT 5.8B Weightedmean Nli Bitfit
モデル概要
このモデルは主に文の類似度計算と特徴抽出に使用され、MTEB(Massive Text Embedding Benchmark)の複数のタスクで優れた性能を発揮し、複数の言語と言語間タスクをサポートします。
モデル特徴
多言語サポート
英語、ドイツ語、フランス語、スペイン語、日本語、中国語など、複数の言語の文の類似度計算と特徴抽出をサポートします。
高性能
MTEBの複数のタスクで優れた性能を発揮し、特に文の類似度と分類タスクで高いスコアを達成します。
NLI微調整
自然言語推論(NLI)タスクによる微調整により、文の類似度と意味理解能力が向上しました。
モデル能力
文の類似度計算
特徴抽出
テキスト分類
言語間テキストマイニング
意味検索
使用事例
電子商取引
商品レビュー分類
アマゾンなどの電子商取引プラットフォームの商品レビューの感情分析と分類に使用されます。
MTEB Amazon極性分類タスクで82.31%の正解率を達成しました。
情報検索
質問応答システム
質問応答システムにおける類似質問の検索と回答のマッチングに使用されます。
AskUbuntu重複質問タスクで55.90の平均精度を達成しました。
言語間アプリケーション
双语文本マイニング
言語間テキストのマッチングとアライメントタスクに使用されます。
BUCCドイツ語 - 英語タスクで75.49%の正解率を達成しました。
🚀 SGPT-5.8B-weightedmean-nli-bitfit
このモデルは文の類似度を計算するために使用され、Sentence Transformersをベースにした特徴抽出モデルです。MTEBの様々なデータセットでの評価結果が提供されています。
📚 ドキュメント
モデル情報
属性 | 详情 |
---|---|
パイプラインタグ | 文の類似度 |
タグ | sentence-transformers、feature-extraction、sentence-similarity、mteb |
モデル名 | SGPT-5.8B-weightedmean-nli-bitfit |
評価結果
分類タスク
- MTEB AmazonCounterfactualClassification (en)
- 精度: 74.07462686567165
- AP: 37.44692407529112
- F1: 68.28971003916419
- MTEB AmazonCounterfactualClassification (de)
- 精度: 66.63811563169165
- AP: 78.57252079915924
- F1: 64.5543087846584
- MTEB AmazonCounterfactualClassification (en-ext)
- 精度: 77.21889055472263
- AP: 25.663426367826712
- F1: 64.26265688503176
- MTEB AmazonCounterfactualClassification (ja)
- 精度: 58.06209850107067
- AP: 14.028219107023915
- F1: 48.10387189660778
- MTEB AmazonPolarityClassification
- 精度: 82.30920000000002
- AP: 76.88786578621213
- F1: 82.15455656065011
- MTEB AmazonReviewsClassification (en)
- 精度: 41.584
- F1: 41.203137944390114
- MTEB AmazonReviewsClassification (de)
- 精度: 35.288000000000004
- F1: 34.672995558518096
- MTEB AmazonReviewsClassification (es)
- 精度: 38.34
- F1: 37.608755629529455
- MTEB AmazonReviewsClassification (fr)
- 精度: 37.839999999999996
- F1: 36.86898201563507
- MTEB AmazonReviewsClassification (ja)
- 精度: 30.936000000000003
- F1: 30.49401738527071
- MTEB AmazonReviewsClassification (zh)
- 精度: 33.75
- F1: 33.38338946025617
- MTEB Banking77Classification
- 精度: 81.74025974025973
- F1: 81.66568824876
検索タスク
- MTEB ArguAna
- MAP@1: 13.727
- MAP@10: 26.740000000000002
- MAP@100: 28.218
- MAP@1000: 28.246
- MAP@3: 21.728
- MAP@5: 24.371000000000002
- NDCG@1: 13.727
- NDCG@10: 35.07
- NDCG@100: 41.947
- NDCG@1000: 42.649
- NDCG@3: 24.484
- NDCG@5: 29.282999999999998
- 精度@1: 13.727
- 精度@10: 6.223
- 精度@100: 0.9369999999999999
- 精度@1000: 0.099
- 精度@3: 10.835
- 精度@5: 8.848
- 再現率@1: 13.727
- 再現率@10: 62.233000000000004
- 再現率@100: 93.67
- 再現率@1000: 99.14699999999999
- 再現率@3: 32.504
- 再現率@5: 44.239
- MTEB CQADupstackAndroidRetrieval
- MAP@1: 26.715
- MAP@10: 35.007
- MAP@100: 36.352000000000004
- MAP@1000: 36.51
- MAP@3: 32.257999999999996
- MAP@5: 33.595000000000006
- NDCG@1: 33.906
- NDCG@10: 40.353
- NDCG@100: 45.562999999999995
- NDCG@1000: 48.454
- NDCG@3: 36.349
- NDCG@5: 37.856
- 精度@1: 33.906
- 精度@10: 7.854
- 精度@100: 1.29
- 精度@1000: 0.188
- 精度@3: 17.549
- 精度@5: 12.561
- 再現率@1: 26.715
- 再現率@10: 49.508
- 再現率@100: 71.76599999999999
- 再現率@1000: 91.118
- 再現率@3: 37.356
- 再現率@5: 41.836
- MTEB CQADupstackEnglishRetrieval
- MAP@1: 19.663
- MAP@10: 27.086
- MAP@100: 28.066999999999997
- MAP@1000: 28.18
- MAP@3: 24.819
- MAP@5: 26.332
- NDCG@1: 25.732
- NDCG@10: 31.613999999999997
- NDCG@100: 35.757
- NDCG@1000: 38.21
- NDCG@3: 28.332
- NDCG@5: 30.264000000000003
- 精度@1: 25.732
- 精度@10: 6.038
- 精度@100: 1.034
- 精度@1000: 0.149
- 精度@3: 13.864
- 精度@5: 10.241999999999999
- 再現率@1: 19.663
- 再現率@10: 39.585
- 再現率@100: 57.718
- 再現率@1000: 74.26700000000001
- 再現率@3: 29.845
- 再現率@5: 35.105
- MTEB CQADupstackGamingRetrieval
- MAP@1: 30.125
- MAP@10: 39.824
- MAP@100: 40.935
- MAP@1000: 41.019
- MAP@3: 37.144
- MAP@5: 38.647999999999996
- NDCG@1: 34.922
- NDCG@10: 45.072
- NDCG@100: 50.046
- NDCG@1000: 51.895
- NDCG@3: 40.251
- NDCG@5: 42.581
- 精度@1: 34.922
- 精度@10: 7.303999999999999
- 精度@100: 1.0739999999999998
- 精度@1000: 0.13
- 精度@3: 17.994
- 精度@5: 12.475999999999999
- 再現率@1: 30.125
- 再現率@10: 57.253
- 再現率@100: 79.35799999999999
- 再現率@1000: 92.523
- 再現率@3: 44.088
- 再現率@5: 49.893
- MTEB CQADupstackGisRetrieval
- MAP@1: 16.298000000000002
- MAP@10: 21.479
- MAP@100: 22.387
- MAP@1000: 22.483
- MAP@3: 19.743
- MAP@5: 20.444000000000003
- NDCG@1: 17.740000000000002
- NDCG@10: 24.887
- NDCG@100: 29.544999999999998
- NDCG@1000: 32.417
- NDCG@3: 21.274
- NDCG@5: 22.399
- 精度@1: 17.740000000000002
- 精度@10: 3.932
- 精度@100: 0.666
- 精度@1000: 0.094
- 精度@3: 8.927
- 精度@5: 6.056
- 再現率@1: 16.298000000000002
- 再現率@10: 34.031
- 再現率@100: 55.769000000000005
- 再現率@1000: 78.19500000000001
- 再現率@3: 23.799999999999997
- 再現率@5: 26.562
- MTEB CQADupstackMathematicaRetrieval
- MAP@1: 10.958
- MAP@10: 16.999
- MAP@100: 17.979
- MAP@1000: 18.112000000000002
- MAP@3: 15.010000000000002
- MAP@5: 16.256999999999998
- NDCG@1: 14.179
- NDCG@10: 20.985
- NDCG@100: 26.216
- NDCG@1000: 29.675
- NDCG@3: 17.28
- NDCG@5: 19.301
- 精度@1: 14.179
- 精度@10: 3.968
- 精度@100: 0.784
- 精度@1000: 0.121
- 精度@3: 8.541
- 精度@5: 6.468
- 再現率@1: 10.958
- 再現率@10: 29.903000000000002
- 再現率@100: 53.413
- 再現率@1000: 78.74799999999999
- 再現率@3: 19.717000000000002
- 再現率@5: 24.817
- MTEB CQADupstackPhysicsRetrieval
- MAP@1: 21.217
- MAP@10: 29.677
- MAP@100: 30.928
- MAP@1000: 31.063000000000002
- MAP@3: 26.611
- MAP@5: 28.463
- NDCG@1: 26.083000000000002
- NDCG@10: 35.217
- NDCG@100: 40.715
- NDCG@1000: 43.559
- NDCG@3: 30.080000000000002
- NDCG@5: 32.701
- 精度@1: 26.083000000000002
- 精度@10: 6.622
- 精度@100: 1.115
- 精度@1000: 0.156
- 精度@3: 14.629
- 精度@5: 10.837
- 再現率@1: 21.217
- 再現率@10: 47.031
- 再現率@100: 70.378
- 再現率@1000: 89.704
- 再現率@3: 32.427
- 再現率@5: 39.31
- MTEB CQADupstackProgrammersRetrieval
- MAP@1: 19.274
- MAP@10: 26.398
- MAP@100: 27.711000000000002
- MAP@1000: 27.833000000000002
- MAP@3: 24.294
- MAP@5: 25.385
- NDCG@1: 24.886
- NDCG@10: 30.909
- NDCG@100: 36.941
- NDCG@1000: 39.838
- NDCG@3: 27.455000000000002
- NDCG@5: 28.828
- 精度@1: 24.886
- 精度@10: 5.6739999999999995
- 精度@100: 1.0290000000000001
- 精度@1000: 0.146
- 精度@3: 13.242
- 精度@5: 9.292
- 再現率@1: 19.274
- 再現率@10: 39.643
- 再現率@100: 66.091
- 再現率@1000: 86.547
- 再現率@3: 29.602
- 再現率@5: 33.561
- MTEB CQADupstackRetrieval
- MAP@1: 18.653666666666666
- MAP@10: 25.606666666666666
- MAP@100: 26.669333333333334
- MAP@1000: 26.795833333333334
- MAP@3: 23.43433333333333
- MAP@5: 24.609666666666666
- NDCG@1: 22.742083333333333
- NDCG@10: 29.978333333333335
- NDCG@100: 34.89808333333333
- NDCG@1000: 37.806583333333336
- NDCG@3: 26.223666666666674
- NDCG@5: 27.91033333333333
- 精度@1: 22.742083333333333
- 精度@10: 5.233
- 精度@100: 0.933
- 精度@1000: 0.126
- 精度@3: 12.342
- 精度@5: 9.064
- 再現率@1: 18.653666666666666
- 再現率@10: 37.833
- 再現率@100: 63.395
- 再現率@1000: 83.337
- 再現率@3: 27.778
- 再現率@5: 32.143
クラスタリングタスク
- MTEB ArxivClusteringP2P
- V-measure: 40.553923271901695
- MTEB ArxivClusteringS2S
- V-measure: 32.49323183712211
- MTEB BiorxivClusteringP2P
- V-measure: 33.59451202614059
- MTEB BiorxivClusteringS2S
- V-measure: 29.128241446157165
再ランキングタスク
- MTEB AskUbuntuDupQuestions
- MAP: 55.89811361443445
- MRR: 70.16235764850724
STSタスク
- MTEB BIOSSES
- コサイン類似度のピアソン相関係数: 82.50506557805856
- コサイン類似度のスピアマン相関係数: 79.50000423261176
- ユークリッド距離のピアソン相関係数: 75.76190885392926
- ユークリッド距離のスピアマン相関係数: 76.7330737163434
- マンハッタン距離のピアソン相関係数: 75.825318036112
- マンハッタン距離のスピアマン相関係数: 76.7415076434559
バイテキストマイニングタスク
- MTEB BUCC (de-en)
- 精度: 75.49060542797494
- F1: 75.15379262352123
- 精度: 74.99391092553932
- 再現率: 75.49060542797494
- MTEB BUCC (fr-en)
- 精度: 0.4182258419546555
- F1: 0.4182258419546555
- 精度: 0.4182258419546555
- 再現率: 0.4182258419546555
- MTEB BUCC (ru-en)
- 精度: 0.013855213023900243
- F1: 0.0115460108532502
- 精度: 0.010391409767925183
- 再現率: 0.013855213023900243
- MTEB BUCC (zh-en)
- 精度: 0.315955766192733
- F1: 0.315955766192733
- 精度: 0.315955766192733
- 再現率: 0.315955766192733
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98