SGPT-125Mオープンソース文変換器モデル - 無料で文章の類似度計算と特徴抽出を実現

ホーム

SGPT 125M Weightedmean Nli Bitfit

Muennighoffによって開発

SGPT-125Mは、加重平均と自然言語推論（NLI）の微調整に基づく文変換モデルで、文の類似度計算と特徴抽出に使用されます。

テキスト埋め込み

PyTorch

#多言語文の類似度 #NLI微調整最適化 #クロス言語テキストマッチング

ダウンロード数 326

リリース時間 : 3/2/2022

モデル概要

このモデルは主に文の類似度計算とテキストの特徴抽出に使用され、加重平均と自然言語推論の微調整により多言語テキスト処理能力が最適化されています。

モデル特徴

マルチタスク評価能力

MTEB（マルチタスク評価ベンチマーク）の様々なタスクで良好な性能を発揮します。分類、クラスタリング、検索などが含まれます。

多言語サポート

英語、ドイツ語、スペイン語、フランス語、日本語、中国語など、複数の言語のテキスト処理をサポートします。

加重平均最適化

加重平均法を用いて文の表現を最適化し、類似度計算の精度を向上させます。

NLI微調整

自然言語推論（NLI）タスクを通じて微調整され、意味理解能力が強化されています。

モデル能力

文の類似度計算

テキストの特徴抽出

多言語テキスト分類

文書クラスタリング

情報検索

検索結果の再ランキング

意味的テキスト類似度評価

バイリンガルテキストマイニング

使用事例

電子商取引

アマゾンレビュー分類

アマゾンの多言語商品レビューを分類します。

英語レビューの分類精度は35.098%、ドイツ語は24.516%、スペイン語は29.098%です。

反事実分類

アマゾンレビューの中の反事実陳述を識別します。

英語の精度は65.88%、ドイツ語は59.08%、日本語は56.42%です。

学術研究

arXiv論文クラスタリング

arXivの学術論文をポイント対ポイントおよび文対文でクラスタリングします。

ポイント対ポイントのVメトリックは34.74、文対文のVメトリックは24.68です。

biorxiv論文クラスタリング

biorxivの生物学論文をクラスタリング分析します。

ポイント対ポイントのVメトリックは28.93、文対文のVメトリックは23.08です。

質問応答システム

AskUbuntu重複質問検出

AskUbuntuフォーラムの重複質問を識別します。

平均精度は52.63%、平均逆順位は65.76%です。

🚀 SGPT-125M-weightedmean-nli-bitfit

このモデルは文の類似度を測定するためのもので、様々な自然言語処理タスクでの性能を評価しています。

📚 詳細ドキュメント

モデル情報

属性	詳情
パイプラインタグ	文の類似度
タグ	sentence-transformers、feature-extraction、sentence-similarity、mteb
モデル名	SGPT-125M-weightedmean-nli-bitfit

評価結果

分類タスク

データセット	設定	正解率	AP	F1
MTEB AmazonCounterfactualClassification (en)	en	65.88059701492537	28.685493163579785	59.79951005816335
MTEB AmazonCounterfactualClassification (de)	de	59.07922912205568	73.91887421019034	56.6316368658711
MTEB AmazonCounterfactualClassification (en-ext)	en-ext	64.91754122938531	16.360681214864226	53.126592061523766
MTEB AmazonCounterfactualClassification (ja)	ja	56.423982869378996	12.143003571907899	45.76363777987471
MTEB AmazonPolarityClassification	default	74.938225	69.58187110320567	74.72744058439321
MTEB AmazonReviewsClassification (en)	en	35.098	-	34.73265651435726
MTEB AmazonReviewsClassification (de)	de	24.516	-	24.21748200448397
MTEB AmazonReviewsClassification (es)	es	29.097999999999995	-	28.620040162757093
MTEB AmazonReviewsClassification (fr)	fr	27.395999999999997	-	27.146888644986284
MTEB AmazonReviewsClassification (ja)	ja	21.724	-	21.37230564276654
MTEB AmazonReviewsClassification (zh)	zh	23.976	-	23.741137981755482
MTEB Banking77Classification	default	74.67857142857142	-	74.61743413995573

検索タスク

データセット	設定	MAP@1	MAP@10	MAP@100	MAP@1000	MAP@3	MAP@5	NDCG@1	NDCG@10	NDCG@100	NDCG@1000	NDCG@3	NDCG@5	Precision@1	Precision@10	Precision@100	Precision@1000	Precision@3	Precision@5	Recall@1	Recall@10	Recall@100	Recall@1000	Recall@3	Recall@5
MTEB ArguAna	default	13.442000000000002	24.275	25.588	25.659	20.092	22.439999999999998	13.442000000000002	31.04	37.529	39.348	22.342000000000002	26.595999999999997	13.442000000000002	5.299	0.836	0.098	9.625	7.852	13.442000000000002	52.986999999999995	83.64200000000001	97.795	28.876	39.26
MTEB CQADupstackAndroidRetrieval	default	18.221999999999998	24.506	25.611	25.758	22.264999999999997	23.698	23.033	28.719	33.748	37.056	25.240000000000002	27.12	23.033	5.408	1.004	0.158	11.874	8.927	18.221999999999998	36.355	58.724	81.33500000000001	26.334000000000003	31.4
MTEB CQADupstackEnglishRetrieval	default	12.058	16.051000000000002	16.772000000000002	16.871	14.78	15.5	15.35	18.804000000000002	22.346	25.007	16.768	17.692	15.35	3.51	0.664	0.11100000000000002	7.983	5.656	12.058	23.644000000000002	39.76	58.56	17.541999999999998	20.232
MTEB CQADupstackGamingRetrieval	default	21.183	28.9	29.858	29.953999999999997	26.58	27.912	24.765	33.339999999999996	37.997	40.416000000000004	29.044999999999998	31.121	24.765	5.599	0.8699999999999999	0.11499999999999999	13.270999999999999	9.367	21.183	43.875	65.005	83.017	32.232	37.308
MTEB CQADupstackGisRetrieval	default	11.350999999999999	14.953	15.623000000000001	15.716	13.603000000000002	14.343	12.429	17.319000000000003	20.990000000000002	23.899	14.605	15.89	12.429	2.701	0.48700000000000004	0.078	6.026	4.3839999999999995	11.350999999999999	23.536	40.942	64.05	16.195	19.264
MTEB CQADupstackMathematicaRetrieval	default	8.08	11.691	12.312	12.439	10.344000000000001	10.996	10.697	14.48	18.160999999999998	21.886	11.872	12.834000000000001	10.697	2.811	0.551	0.10200000000000001	5.804	4.154	8.08	20.235	37.525999999999996	65.106	12.803999999999998	15.498999999999999
MTEB CQADupstackPhysicsRetrieval	default	13.908999999999999	19.256	20.286	20.429	17.399	18.398999999999997	17.421	23.105999999999998	28.128999999999998	31.480999999999998	19.789	21.237000000000002	17.421	4.331	0.839	0.131	9.4	6.776	13.908999999999999	31.086999999999996	52.946000000000005	76.546	21.351	25.264999999999997
MTEB CQADupstackProgrammersRetrieval	default	12.598	17.304	18.209	18.328	15.784	16.669999999999998	15.867999999999999	20.623	25.093	28.498	17.912	19.198	15.867999999999999	3.7670000000000003	0.716	0.11800000000000001	8.638	6.21	12.598	27.144000000000002	46.817	71.86099999999999	19.231	22.716
MTEB CQADupstackRetrieval	default	12.738416666666666	17.235916666666668	18.063333333333333	18.18433333333333	15.74775	16.57825	15.487416	-	-	-	-	-	15.487416	-	-	-	-	-	12.738416666666666	-	-	-	-	-

クラスタリングタスク

データセット	設定	V-measure
MTEB ArxivClusteringP2P	default	34.742482477870766
MTEB ArxivClusteringS2S	default	24.67870651472156
MTEB BlurbsClusteringS2S	default	8.00311862863495
MTEB BiorxivClusteringP2P	default	28.93427045246491
MTEB BiorxivClusteringS2S	default	23.080939123955474

再ランキングタスク

データセット	設定	MAP	MRR
MTEB AskUbuntuDupQuestions	default	52.63439984994702	65.75704612408214

STSタスク

データセット	設定	コサイン類似度のピアソン相関係数	コサイン類似度のスピアマン相関係数	ユークリッド距離のピアソン相関係数	ユークリッド距離のスピアマン相関係数	マンハッタン距離のピアソン相関係数	マンハッタン距離のスピアマン相関係数
MTEB BIOSSES	default	72.78000135012542	70.92812216947605	77.1169214949292	77.10175681583313	76.84527031837595	77.0704308008438

バイテキストマイニングタスク

データセット	設定	正解率	F1	精度	再現率
MTEB BUCC (de-en)	de-en	1.0960334029227559	1.0925539318023658	1.0908141962421711	1.0960334029227559
MTEB BUCC (fr-en)	fr-en	0.02201188641866608	0.02201188641866608	0.02201188641866608	0.02201188641866608
MTEB BUCC (ru-en)	ru-en	0.0	0.0	0.0	0.0
MTEB BUCC (zh-en)	zh-en	0.0	0.0	0.0	0.0