gte-large-zhオープンソース中国語モデル - 無料でテキストの意味表現と類似度計算を行う

ホーム

Gte Large Zh

thenlperによって開発

GTE Large 中国語モデルは多言語テキスト埋め込みモデルで、中国語テキストの意味表現と類似度計算に特化しています。

テキスト埋め込み

Safetensors

英語オープンソースライセンス:MIT #中文意味類似度 #医療QA再ランキング #マルチタスクテキスト埋め込み

ダウンロード数 4,896

リリース時間 : 11/7/2023

モデル概要

このモデルは主に高品質な文埋め込みを生成するために使用され、意味テキスト類似度計算、テキスト分類、クラスタリング、情報検索など、さまざまな中国語自然言語処理タスクをサポートします。

モデル特徴

マルチタスクサポート

意味類似度計算、分類、クラスタリング、検索など、さまざまな自然言語処理タスクをサポートします。

高性能

複数の中国語ベンチマークテストで優れた性能を発揮し、特に意味類似度と情報検索タスクで顕著です。

中国語最適化

中国語テキストに特化して最適化されており、中国語の意味的特徴をより効果的に捉えることができます。

モデル能力

意味テキスト類似度計算

テキスト分類

テキストクラスタリング

情報検索

再ランキング

使用事例

意味類似度

QAマッチング

質問と候補回答間の意味類似度を計算

AFQMCデータセットでピアソン相関係数48.94を達成

文ペア分類

2つの文が同じ意味を表しているか判断

BQデータセットでピアソン相関係数62.55を達成

情報検索

医療QA検索

医療知識ベースから関連する質問回答を検索

CmedqaRetrievalデータセットでランク1000平均精度38.52を達成

COVID-19情報検索

COVID-19関連情報を検索

CovidRetrievalデータセットでランク100平均精度85.78を達成

テキスト分類

製品レビュー分類

Amazon中国語レビューを分類

精度47.23%を達成

🚀 gte-large-zh

gte-large-zhは、様々な自然言語処理タスクで高い性能を発揮するモデルです。このモデルは、STSや分類、クラスタリング、再ランキング、検索などのタスクに適用でき、複数のデータセットでの評価結果が提供されています。

📚 ドキュメント

モデル情報

属性	詳情
モデルタイプ	gte-large-zh
タグ	mteb、sentence-similarity、sentence-transformers、Sentence Transformers

評価結果

1. STSタスク

C-MTEB/AFQMC (validation)

指標	値
cos_sim_pearson	48.94131905219026
cos_sim_spearman	54.58261199731436
euclidean_pearson	52.73929210805982
euclidean_spearman	54.582632097533676
manhattan_pearson	52.73123295724949
manhattan_spearman	54.572941830465794

C-MTEB/ATEC (test)

指標	値
cos_sim_pearson	47.292931669579005
cos_sim_spearman	54.601019783506466
euclidean_pearson	54.61393532658173
euclidean_spearman	54.60101865708542
manhattan_pearson	54.59369555606305
manhattan_spearman	54.601098593646036

C-MTEB/BQ (test)

指標	値
cos_sim_pearson	62.55033151404683
cos_sim_spearman	64.40573802644984
euclidean_pearson	62.93453281081951
euclidean_spearman	64.40574149035828
manhattan_pearson	62.839969210895816
manhattan_spearman	64.30837945045283

C-MTEB/LCQMC (test)

指標	値
cos_sim_pearson	69.50947272908907
cos_sim_spearman	74.40054474949213
euclidean_pearson	73.53007373987617
euclidean_spearman	74.40054474732082
manhattan_pearson	73.51396571849736
manhattan_spearman	74.38395696630835

2. 分類タスク

mteb/amazon_reviews_multi (zh, test)

指標値

accuracy 47.233999999999995

f1 45.68998446563349
C-MTEB/IFlyTek-classification (validation)

指標値

accuracy 49.60369372835706

f1 38.24016248875209
C-MTEB/JDReview-classification (test)

指標値

accuracy 86.71669793621012

ap 55.75807094995178

f1 81.59033162805417
mteb/amazon_massive_intent (zh-CN, test)

指標値

accuracy 73.30531271015468

f1 70.88091430578575
mteb/amazon_massive_scenario (zh-CN, test)

指標値

accuracy 75.7128446536651

f1 75.06125593532262

指標	値
accuracy	47.233999999999995
f1	45.68998446563349

指標	値
accuracy	49.60369372835706
f1	38.24016248875209

指標	値
accuracy	86.71669793621012
ap	55.75807094995178
f1	81.59033162805417

指標	値
accuracy	73.30531271015468
f1	70.88091430578575

指標	値
accuracy	75.7128446536651
f1	75.06125593532262

3. クラスタリングタスク

C-MTEB/CLSClusteringP2P (test)

指標値

v_measure 42.098169316685045
C-MTEB/CLSClusteringS2S (test)

指標値

v_measure 38.90716707051822

指標	値
v_measure	42.098169316685045

指標	値
v_measure	38.90716707051822

4. 再ランキングタスク

C-MTEB/CMedQAv1-reranking (test)

指標値

map 86.09191911031553

mrr 88.6747619047619
C-MTEB/CMedQAv2-reranking (test)

指標値

map 86.45781885502122

mrr 89.01591269841269
C-MTEB/Mmarco-reranking (dev)

指標値

map 31.188333827724108

mrr 29.84801587301587