Gte Base Zh
G
Gte Base Zh
thenlperによって開発
gte-base-zhは中国語に最適化された汎用テキスト埋め込みモデルで、意味類似度計算、テキスト分類、情報検索など様々な自然言語処理タスクをサポートします。
ダウンロード数 22.03k
リリース時間 : 11/8/2023
モデル概要
このモデルは高品質な文埋め込みの生成に特化しており、中国語テキストの意味理解と表現に適しています。複数の中国語ベンチマークテストで優れた性能を発揮し、特に意味類似度と情報検索タスクの処理に優れています。
モデル特徴
マルチタスクサポート
意味類似度計算、テキスト分類、情報検索など、様々な自然言語処理タスクをサポートします。
中国語最適化
中国語テキストに特化して最適化されており、複数の中国語ベンチマークテストで優れた性能を発揮します。
効率的な検索
情報検索タスクで優れた性能を発揮し、特に医療分野の問題検索において顕著です。
モデル能力
意味的テキスト類似度計算
テキスト分類
情報検索
テキストクラスタリング
再ランキング
使用事例
金融分野
金融問題マッチング
AFQMCデータセットのタスクなど、類似する金融問題のマッチングに使用
コサイン類似度ピアソン相関係数が44.46に達する
医療分野
医療QA検索
医療問題に関連する回答の検索に使用
CMedQAv1とCMedQAv2データセットでMAPがそれぞれ86.79と87.20を達成
電子商取引
商品レビュー分類
Amazon中国語商品レビューの分類
精度が45.82%に達する
🚀 gte-base-zh
gte-base-zh
は、様々な自然言語処理タスクにおいて優れた性能を発揮するモデルです。このモデルは、文の類似度計算や分類、検索、再ランキングなどのタスクに適用でき、多くのデータセットで良好な評価指標を達成しています。
📚 詳細ドキュメント
モデルのタグ
- mteb
- sentence-similarity
- sentence-transformers
- Sentence Transformers
モデルの評価結果
1. STS (Semantic Textual Similarity) タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB AFQMC | cos_sim_pearson | 44.45621572456527 |
cos_sim_spearman | 49.06500895667604 | |
euclidean_pearson | 47.55002064096053 | |
euclidean_spearman | 49.06500895667604 | |
manhattan_pearson | 47.429900262366715 | |
manhattan_spearman | 48.95704890278774 | |
MTEB ATEC | cos_sim_pearson | 44.31699346653116 |
cos_sim_spearman | 50.83133156721432 | |
euclidean_pearson | 51.36086517946001 | |
euclidean_spearman | 50.83132818894256 | |
manhattan_pearson | 51.255926461574084 | |
manhattan_spearman | 50.73460147395406 | |
MTEB BQ | cos_sim_pearson | 63.47477451918581 |
cos_sim_spearman | 65.49832607366159 | |
euclidean_pearson | 64.11399760832107 | |
euclidean_spearman | 65.49832260877398 | |
manhattan_pearson | 64.02541311484639 | |
manhattan_spearman | 65.42436057501452 | |
MTEB LCQMC | cos_sim_pearson | 68.77445518082875 |
cos_sim_spearman | 74.05909185405268 | |
euclidean_pearson | 72.92870557009725 | |
euclidean_spearman | 74.05909628639644 | |
manhattan_pearson | 72.92072580598351 | |
manhattan_spearman | 74.0304390211741 |
2. Classification タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB AmazonReviewsClassification (zh) | accuracy | 45.818000000000005 |
f1 | 43.998253644678144 | |
MTEB IFlyTek | accuracy | 48.61869949980762 |
f1 | 36.49337336098832 | |
MTEB JDReview | accuracy | 85.94746716697938 |
ap | 53.75927589310753 | |
f1 | 80.53821597736138 | |
MTEB MassiveIntentClassification (zh-CN) | accuracy | 73.315400134499 |
f1 | 70.81060697693198 | |
MTEB MassiveScenarioClassification (zh-CN) | accuracy | 76.78883658372563 |
f1 | 76.21512438791976 |
3. Clustering タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CLSClusteringP2P | v_measure | 42.58046835435111 |
MTEB CLSClusteringS2S | v_measure | 40.42134173217685 |
4. Reranking タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CMedQAv1 | map | 86.79079943923792 |
mrr | 88.81341269841269 | |
MTEB CMedQAv2 | map | 87.20186031249037 |
mrr | 89.46551587301587 | |
MTEB MMarcoReranking | map | 27.643607073221975 |
mrr | 26.646825396825395 |
5. Retrieval タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CmedqaRetrieval | map_at_1 | 25.098 |
map_at_10 | 37.759 | |
map_at_100 | 39.693 | |
map_at_1000 | 39.804 | |
map_at_3 | 33.477000000000004 | |
map_at_5 | 35.839 | |
mrr_at_1 | 38.06 | |
mrr_at_10 | 46.302 | |
mrr_at_100 | 47.370000000000005 | |
mrr_at_1000 | 47.412 | |
mrr_at_3 | 43.702999999999996 | |
mrr_at_5 | 45.213 | |
ndcg_at_1 | 38.06 | |
ndcg_at_10 | 44.375 | |
ndcg_at_100 | 51.849999999999994 | |
ndcg_at_1000 | 53.725 | |
ndcg_at_3 | 38.97 | |
ndcg_at_5 | 41.193000000000005 | |
precision_at_1 | 38.06 | |
precision_at_10 | 9.934999999999999 | |
precision_at_100 | 1.599 | |
precision_at_1000 | 0.183 | |
precision_at_3 | 22.072 | |
precision_at_5 | 16.089000000000002 | |
recall_at_1 | 25.098 | |
recall_at_10 | 55.264 | |
recall_at_100 | 85.939 | |
recall_at_1000 | 98.44800000000001 | |
recall_at_3 | 39.122 | |
recall_at_5 | 45.948 | |
MTEB CovidRetrieval | map_at_1 | 62.144 |
map_at_10 | 71.589 | |
map_at_100 | 72.066 | |
map_at_1000 | 72.075 | |
map_at_3 | 69.916 | |
map_at_5 | 70.806 | |
mrr_at_1 | 62.275999999999996 | |
mrr_at_10 | 71.57 | |
mrr_at_100 | 72.048 | |
mrr_at_1000 | 72.057 | |
mrr_at_3 | 69.89800000000001 | |
mrr_at_5 | 70.84700000000001 | |
ndcg_at_1 | 62.381 | |
ndcg_at_10 | 75.74 | |
ndcg_at_100 | 77.827 | |
ndcg_at_1000 | 78.044 | |
ndcg_at_3 | 72.307 | |
ndcg_at_5 | 73.91499999999999 | |
precision_at_1 | 62.381 | |
precision_at_10 | 8.946 | |
precision_at_100 | 0.988 | |
precision_at_1000 | 0.101 | |
precision_at_3 | 26.554 | |
precision_at_5 | 16.733 | |
recall_at_1 | 62.144 | |
recall_at_10 | 88.567 | |
recall_at_100 | 97.84 | |
recall_at_1000 | 99.473 | |
recall_at_3 | 79.083 | |
recall_at_5 | 83.035 | |
MTEB DuRetrieval | map_at_1 | 24.665 |
map_at_10 | 74.91600000000001 | |
map_at_100 | 77.981 | |
map_at_1000 | 78.032 | |
map_at_3 | 51.015 | |
map_at_5 | 64.681 | |
mrr_at_1 | 86.5 | |
mrr_at_10 | 90.78399999999999 | |
mrr_at_100 | 90.859 | |
mrr_at_1000 | 90.863 | |
mrr_at_3 | 90.375 | |
mrr_at_5 | 90.66199999999999 | |
ndcg_at_1 | 86.5 | |
ndcg_at_10 | 83.635 | |
ndcg_at_100 | 86.926 | |
ndcg_at_1000 | 87.425 | |
ndcg_at_3 | 81.28999999999999 | |
ndcg_at_5 | 80.549 | |
precision_at_1 | 86.5 | |
precision_at_10 | 40.544999999999995 | |
precision_at_100 | 4.748 | |
precision_at_1000 | 0.48700000000000004 | |
precision_at_3 | 72.68299999999999 | |
precision_at_5 | 61.86000000000001 | |
recall_at_1 | 24.665 | |
recall_at_10 | 85.72 | |
recall_at_100 | 96.116 | |
recall_at_1000 | 98.772 | |
recall_at_3 | 53.705999999999996 | |
recall_at_5 | 70.42699999999999 | |
MTEB EcomRetrieval | map_at_1 | 54.0 |
map_at_10 | 64.449 | |
map_at_100 | 64.937 | |
map_at_1000 | 64.946 | |
map_at_3 | 61.85000000000001 | |
map_at_5 | 63.525 | |
mrr_at_1 | 54.0 | |
mrr_at_10 | 64.449 | |
mrr_at_100 | 64.937 | |
mrr_at_1000 | 64.946 | |
mrr_at_3 | 61.85000000000001 | |
mrr_at_5 | 63.525 | |
ndcg_at_1 | 54.0 | |
ndcg_at_10 | 69.56400000000001 | |
ndcg_at_100 | 71.78999999999999 | |
ndcg_at_1000 | 72.021 | |
ndcg_at_3 | 64.334 | |
ndcg_at_5 | 67.368 | |
precision_at_1 | 54.0 | |
precision_at_10 | 8.559999999999999 | |
precision_at_100 | 0.9570000000000001 | |
precision_at_1000 | 0.098 | |
precision_at_3 | 23.833 | |
precision_at_5 | 15.78 | |
recall_at_1 | 54.0 | |
recall_at_10 | 85.6 | |
recall_at_100 | 95.7 | |
recall_at_1000 | 97.5 | |
recall_at_3 | 71.5 | |
recall_at_5 | 78.9 | |
MTEB MMarcoRetrieval | map_at_1 | 65.10000000000001 |
map_at_10 | 74.014 | |
map_at_100 | 74.372 | |
map_at_1000 | 74.385 | |
map_at_3 | 72.179 | |
map_at_5 | 73.37700000000001 | |
mrr_at_1 | 67.364 | |
mrr_at_10 | 74.68 | |
mrr_at_100 | 74.992 | |
mrr_at_1000 | 75.003 | |
mrr_at_3 | 73.054 | |
mrr_at_5 | 74.126 | |
ndcg_at_1 | 67.364 | |
ndcg_at_10 | 77.704 | |
ndcg_at_100 | 79.29899999999999 | |
ndcg_at_1000 | 79.637 | |
ndcg_at_3 | 74.232 | |
ndcg_at_5 | 76.264 | |
precision_at_1 | 67.364 | |
precision_at_10 | 9.397 | |
precision_at_100 | 1.019 | |
precision_at_1000 | 0.105 | |
precision_at_3 | 27.942 | |
precision_at_5 | 17.837 | |
recall_at_1 | 65.10000000000001 | |
recall_at_10 | 88.416 | |
recall_at_100 | 95.61 | |
recall_at_1000 | 98.261 | |
recall_at_3 | 79.28 | |
recall_at_5 | 84.108 | |
MTEB MedicalRetrieval | map_at_1 | 55.300000000000004 |
map_at_10 | 61.879 | |
map_at_100 | 62.434 | |
map_at_1000 | 62.476 | |
map_at_3 | 60.417 | |
map_at_5 | 61.29700 |
6. PairClassification タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB Cmnli | cos_sim_accuracy | 78.02766085387853 |
cos_sim_ap | 85.59982802559004 | |
cos_sim_f1 | 79.57103418984921 | |
cos_sim_precision | 72.88465279128575 | |
cos_sim_recall | 87.60813654430676 | |
dot_accuracy | 78.02766085387853 | |
dot_ap | 85.59604477360719 | |
dot_f1 | 79.57103418984921 | |
dot_precision | 72.88465279128575 | |
dot_recall | 87.60813654430676 | |
euclidean_accuracy | 78.02766085387853 | |
euclidean_ap | 85.59982802559004 | |
euclidean_f1 | 79.57103418984921 | |
euclidean_precision | 72.88465279128575 | |
euclidean_recall | 87.60813654430676 | |
manhattan_accuracy | 77.9795550210463 | |
manhattan_ap | 85.58042267497707 | |
manhattan_f1 | 79.40344001741781 | |
manhattan_precision | 74.29211652067632 | |
manhattan_recall | 85.27004909983633 | |
max_accuracy | 78.02766085387853 | |
max_ap | 85.59982802559004 | |
max_f1 | 79.57103418984921 |
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98