Stella Base Zh V2
モデル概要
このモデルは主に中国語テキストの意味類似度計算、特徴抽出、マルチタスク評価に使用され、金融QAや自然言語推論など様々なシナリオに適用可能です。
モデル特徴
マルチタスク評価サポート
アント金融QA、ATEC、BQなど、様々な中国語テキスト類似度タスクと評価基準をサポート。
高性能意味類似度計算
特に金融QAや自然言語推論タスクで優れた性能を発揮。
複数距離尺度サポート
コサイン類似度、ユークリッド距離、マンハッタン距離など様々な類似度測定方法をサポート。
モデル能力
意味的テキスト類似度計算
テキスト特徴抽出
テキストペア分類
テキストクラスタリング
検索タスク
リランキングタスク
使用事例
金融分野
金融QAシステム
金融分野のQAシステムで、質問と回答間の意味類似度を計算。
アント金融QAデータセットで良好な性能
医療分野
医療QA検索
医療分野のQA検索システムに使用。
CMedQAデータセットで平均精度84.69%を達成
EC分野
商品レビュー分類
ECプラットフォームの商品レビュー分類に使用。
Amazon中国語レビュー分類タスクで精度39.64%
🚀 stella-base-zh-v2
stella-base-zh-v2は、文の類似度を測定するためのモデルです。このモデルは、sentence-transformersをベースに構築されており、特徴抽出や文の類似度計算に適しています。
📚 詳細ドキュメント
モデル情報
属性 | 詳情 |
---|---|
パイプラインタグ | 文の類似度 |
タグ | sentence-transformers、特徴抽出、文の類似度、mteb |
モデル名 | stella-base-zh-v2 |
評価結果
STSタスク
データセット | 分割 | 指標 | 値 |
---|---|---|---|
MTEB AFQMC | validation | cos_sim_pearson | 44.62083443545288 |
MTEB AFQMC | validation | cos_sim_spearman | 46.72814628391134 |
MTEB AFQMC | validation | euclidean_pearson | 45.11522093816821 |
MTEB AFQMC | validation | euclidean_spearman | 46.72818648900957 |
MTEB AFQMC | validation | manhattan_pearson | 44.98820754682395 |
MTEB AFQMC | validation | manhattan_spearman | 46.63576705524296 |
MTEB ATEC | test | cos_sim_pearson | 49.543902370260234 |
MTEB ATEC | test | cos_sim_spearman | 51.22161152883018 |
MTEB ATEC | test | euclidean_pearson | 53.49586541060596 |
MTEB ATEC | test | euclidean_spearman | 51.22161490583934 |
MTEB ATEC | test | manhattan_pearson | 53.51023339947787 |
MTEB ATEC | test | manhattan_spearman | 51.22426632538443 |
MTEB BQ | test | cos_sim_pearson | 61.96416237112325 |
MTEB BQ | test | cos_sim_spearman | 64.80484064041543 |
MTEB BQ | test | euclidean_pearson | 63.281983537100594 |
MTEB BQ | test | euclidean_spearman | 64.80483024694405 |
MTEB BQ | test | manhattan_pearson | 63.266046412399426 |
MTEB BQ | test | manhattan_spearman | 64.79643672829964 |
MTEB LCQMC | test | cos_sim_pearson | 70.2307617475436 |
MTEB LCQMC | test | cos_sim_spearman | 76.88912653700545 |
MTEB LCQMC | test | euclidean_pearson | 75.47976675486538 |
MTEB LCQMC | test | euclidean_spearman | 76.88912210059333 |
MTEB LCQMC | test | manhattan_pearson | 75.45834919257487 |
MTEB LCQMC | test | manhattan_spearman | 76.8669208121889 |
分類タスク
データセット | 分割 | 指標 | 値 |
---|---|---|---|
MTEB AmazonReviewsClassification (zh) | test | accuracy | 39.644 |
MTEB AmazonReviewsClassification (zh) | test | f1 | 37.67897186741224 |
MTEB IFlyTek | validation | accuracy | 47.895344363216616 |
MTEB IFlyTek | validation | f1 | 34.95151253165417 |
MTEB JDReview | test | accuracy | 84.78424015009381 |
MTEB JDReview | test | ap | 52.436279969597685 |
MTEB JDReview | test | f1 | 79.49258679392281 |
MTEB MassiveIntentClassification (zh-CN) | test | accuracy | 68.08675184936112 |
MTEB MassiveIntentClassification (zh-CN) | test | f1 | 65.51466585063827 |
MTEB MassiveScenarioClassification (zh-CN) | test | accuracy | 73.22461331540013 |
MTEB MassiveScenarioClassification (zh-CN) | test | f1 | 72.675432030145 |
クラスタリングタスク
データセット | 分割 | 指標 | 値 |
---|---|---|---|
MTEB CLSClusteringP2P | test | v_measure | 40.25857488823951 |
MTEB CLSClusteringS2S | test | v_measure | 37.17501553349549 |
再ランキングタスク
データセット | 分割 | 指標 | 値 |
---|---|---|---|
MTEB CMedQAv1 | test | map | 84.69751849160603 |
MTEB CMedQAv1 | test | mrr | 87.16257936507937 |
MTEB CMedQAv2 | test | map | 85.31468551417655 |
MTEB CMedQAv2 | test | mrr | 87.74658730158731 |
MTEB MMarcoReranking | dev | map | 28.047948482579244 |
MTEB MMarcoReranking | dev | mrr | 26.63809523809524 |
検索タスク
データセット | 分割 | 指標 | 値 |
---|---|---|---|
MTEB CmedqaRetrieval | dev | map_at_1 | 24.181 |
MTEB CmedqaRetrieval | dev | map_at_10 | 35.615 |
MTEB CmedqaRetrieval | dev | map_at_100 | 37.444 |
MTEB CmedqaRetrieval | dev | map_at_1000 | 37.573 |
MTEB CmedqaRetrieval | dev | map_at_3 | 31.679000000000002 |
MTEB CmedqaRetrieval | dev | map_at_5 | 33.854 |
MTEB CmedqaRetrieval | dev | mrr_at_1 | 37.108999999999995 |
MTEB CmedqaRetrieval | dev | mrr_at_10 | 44.653 |
MTEB CmedqaRetrieval | dev | mrr_at_100 | 45.647 |
MTEB CmedqaRetrieval | dev | mrr_at_1000 | 45.701 |
MTEB CmedqaRetrieval | dev | mrr_at_3 | 42.256 |
MTEB CmedqaRetrieval | dev | mrr_at_5 | 43.497 |
MTEB CmedqaRetrieval | dev | ndcg_at_1 | 37.108999999999995 |
MTEB CmedqaRetrieval | dev | ndcg_at_10 | 42.028999999999996 |
MTEB CmedqaRetrieval | dev | ndcg_at_100 | 49.292 |
MTEB CmedqaRetrieval | dev | ndcg_at_1000 | 51.64 |
MTEB CmedqaRetrieval | dev | ndcg_at_3 | 37.017 |
MTEB CmedqaRetrieval | dev | ndcg_at_5 | 38.997 |
MTEB CmedqaRetrieval | dev | precision_at_1 | 37.108999999999995 |
MTEB CmedqaRetrieval | dev | precision_at_10 | 9.386999999999999 |
MTEB CmedqaRetrieval | dev | precision_at_100 | 1.536 |
MTEB CmedqaRetrieval | dev | precision_at_1000 | 0.183 |
MTEB CmedqaRetrieval | dev | precision_at_3 | 20.93 |
MTEB CmedqaRetrieval | dev | precision_at_5 | 15.268999999999998 |
MTEB CmedqaRetrieval | dev | recall_at_1 | 24.181 |
MTEB CmedqaRetrieval | dev | recall_at_10 | 51.961999999999996 |
MTEB CmedqaRetrieval | dev | recall_at_100 | 82.122 |
MTEB CmedqaRetrieval | dev | recall_at_1000 | 98.059 |
MTEB CmedqaRetrieval | dev | recall_at_3 | 36.730000000000004 |
MTEB CmedqaRetrieval | dev | recall_at_5 | 42.884 |
MTEB CovidRetrieval | dev | map_at_1 | 67.43900000000001 |
MTEB CovidRetrieval | dev | map_at_10 | 76.00099999999999 |
MTEB CovidRetrieval | dev | map_at_100 | 76.297 |
MTEB CovidRetrieval | dev | map_at_1000 | 76.29899999999999 |
MTEB CovidRetrieval | dev | map_at_3 | 74.412 |
MTEB CovidRetrieval | dev | map_at_5 | 75.177 |
MTEB CovidRetrieval | dev | mrr_at_1 | 67.65 |
MTEB CovidRetrieval | dev | mrr_at_10 | 76.007 |
MTEB CovidRetrieval | dev | mrr_at_100 | 76.322 |
MTEB CovidRetrieval | dev | mrr_at_1000 | 76.324 |
MTEB CovidRetrieval | dev | mrr_at_3 | 74.464 |
MTEB CovidRetrieval | dev | mrr_at_5 | 75.265 |
MTEB CovidRetrieval | dev | ndcg_at_1 | 67.65 |
MTEB CovidRetrieval | dev | ndcg_at_10 | 79.85600000000001 |
MTEB CovidRetrieval | dev | ndcg_at_100 | 81.34400000000001 |
MTEB CovidRetrieval | dev | ndcg_at_1000 | 81.44200000000001 |
MTEB CovidRetrieval | dev | ndcg_at_3 | 76.576 |
MTEB CovidRetrieval | dev | ndcg_at_5 | 77.956 |
MTEB CovidRetrieval | dev | precision_at_1 | 67.65 |
MTEB CovidRetrieval | dev | precision_at_10 | 9.283 |
MTEB CovidRetrieval | dev | precision_at_100 | 0.9990000000000001 |
MTEB CovidRetrieval | dev | precision_at_1000 | 0.101 |
MTEB CovidRetrieval | dev | precision_at_3 | 27.749000000000002 |
MTEB CovidRetrieval | dev | precision_at_5 | 17.345 |
MTEB CovidRetrieval | dev | recall_at_1 | 67.43900000000001 |
MTEB CovidRetrieval | dev | recall_at_10 | 91.781 |
MTEB CovidRetrieval | dev | recall_at_100 | 98.84100000000001 |
MTEB CovidRetrieval | dev | recall_at_1000 | 99.684 |
MTEB CovidRetrieval | dev | recall_at_3 | 82.719 |
MTEB CovidRetrieval | dev | recall_at_5 | 86.038 |
MTEB DuRetrieval | dev | map_at_1 | 25.354 |
MTEB DuRetrieval | dev | map_at_10 | 79.499 |
MTEB DuRetrieval | dev | map_at_100 | 82.416 |
MTEB DuRetrieval | dev | map_at_1000 | 82.451 |
MTEB DuRetrieval | dev | map_at_3 | 54.664 |
MTEB DuRetrieval | dev | map_at_5 | 69.378 |
MTEB DuRetrieval | dev | mrr_at_1 | 89.25 |
MTEB DuRetrieval | dev | mrr_at_10 | 92.666 |
MTEB DuRetrieval | dev | mrr_at_100 | 92.738 |
MTEB DuRetrieval | dev | mrr_at_1000 | 92.74 |
MTEB DuRetrieval | dev | mrr_at_3 | 92.342 |
MTEB DuRetrieval | dev | mrr_at_5 | 92.562 |
MTEB DuRetrieval | dev | ndcg_at_1 | 89.25 |
MTEB DuRetrieval | dev | ndcg_at_10 | 86.97 |
MTEB DuRetrieval | dev | ndcg_at_100 | 89.736 |
MTEB DuRetrieval | dev | ndcg_at_1000 | 90.069 |
MTEB DuRetrieval | dev | ndcg_at_3 | 85.476 |
MTEB DuRetrieval | dev | ndcg_at_5 | 84.679 |
MTEB DuRetrieval | dev | precision_at_1 | 89.25 |
MTEB DuRetrieval | dev | precision_at_10 | 41.9 |
MTEB DuRetrieval | dev | precision_at_100 | 4.811 |
MTEB DuRetrieval | dev | precision_at_1000 | 0.48900000000000005 |
MTEB DuRetrieval | dev | precision_at_3 | 76.86699999999999 |
MTEB DuRetrieval | dev | precision_at_5 | 65.25 |
MTEB DuRetrieval | dev | recall_at_1 | 25.354 |
MTEB DuRetrieval | dev | recall_at_10 | 88.64999999999999 |
MTEB DuRetrieval | dev | recall_at_100 | 97.56 |
MTEB DuRetrieval | dev | recall_at_1000 | 99.37 |
MTEB DuRetrieval | dev | recall_at_3 | 57.325 |
MTEB DuRetrieval | dev | recall_at_5 | 74.614 |
MTEB EcomRetrieval | dev | map_at_1 | 48.3 |
MTEB EcomRetrieval | dev | map_at_10 | 57.765 |
MTEB EcomRetrieval | dev | map_at_100 | 58.418000000000006 |
MTEB EcomRetrieval | dev | map_at_1000 | 58.43899999999999 |
MTEB EcomRetrieval | dev | map_at_3 | 54.883 |
MTEB EcomRetrieval | dev | map_at_5 | 56.672999999999995 |
MTEB EcomRetrieval | dev | mrr_at_1 | 48.3 |
MTEB EcomRetrieval | dev | mrr_at_10 | 57.765 |
MTEB EcomRetrieval | dev | mrr_at_100 | 58.418000000000006 |
MTEB EcomRetrieval | dev | mrr_at_1000 | 58.43899999999999 |
MTEB EcomRetrieval | dev | mrr_at_3 | 54.883 |
MTEB EcomRetrieval | dev | mrr_at_5 | 56.672999999999995 |
MTEB EcomRetrieval | dev | ndcg_at_1 | 48.3 |
MTEB EcomRetrieval | dev | ndcg_at_10 | 62.846000000000004 |
MTEB EcomRetrieval | dev | ndcg_at_100 | 65.845 |
MTEB EcomRetrieval | dev | ndcg_at_1000 | 66.369 |
MTEB EcomRetrieval | dev | ndcg_at_3 | 56.996 |
MTEB EcomRetrieval | dev | ndcg_at_5 | 60.214999999999996 |
MTEB EcomRetrieval | dev | precision_at_1 | 48.3 |
MTEB EcomRetrieval | dev | precision_at_10 | 7.9 |
MTEB EcomRetrieval | dev | precision_at_100 | 0.9259999999999999 |
MTEB EcomRetrieval | dev | precision_at_1000 | 0.097 |
MTEB EcomRetrieval | dev | precision_at_3 | 21.032999999999998 |
MTEB EcomRetrieval | dev | precision_at_5 | 14.180000000000001 |
MTEB EcomRetrieval | dev | recall_at_1 | 48.3 |
MTEB EcomRetrieval | dev | recall_at_10 | 79.0 |
MTEB EcomRetrieval | dev | recall_at_100 | 92.60000000000001 |
MTEB EcomRetrieval | dev | recall_at_1000 | 96.7 |
MTEB EcomRetrieval | dev | recall_at_3 | 63.1 |
MTEB EcomRetrieval | dev | recall_at_5 | 70.89999999999999 |
MTEB MMarcoRetrieval | dev | map_at_1 | 65.837 |
MTEB MMarcoRetrieval | dev | map_at_10 | 74.72 |
MTEB MMarcoRetrieval | dev | map_at_100 | 75.068 |
MTEB MMarcoRetrieval | dev | map_at_1000 | 75.079 |
MTEB MMarcoRetrieval | dev | map_at_3 | 72.832 |
MTEB MMarcoRetrieval | dev | map_at_5 | 74.07000000000001 |
MTEB MMarcoRetrieval | dev | mrr_at_1 | 68.009 |
MTEB MMarcoRetrieval | dev | mrr_at_10 | 75.29400000000001 |
MTEB MMarcoRetrieval | dev | mrr_at_100 | 75.607 |
MTEB MMarcoRetrieval | dev | mrr_at_1000 | 75.617 |
MTEB MMarcoRetrieval | dev | mrr_at_3 | 73.677 |
MTEB MMarcoRetrieval | dev | mrr_at_5 | 74.74199999999999 |
MTEB MMarcoRetrieval | dev | ndcg_at_1 | 68.009 |
MTEB MMarcoRetrieval | dev | ndcg_at_10 | 78.36 |
MTEB MMarcoRetrieval | dev | ndcg_at_100 | 79.911 |
MTEB MMarcoRetrieval | dev | ndcg_at_1000 | 80.226 |
MTEB MMarcoRetrieval | dev | ndcg_at_3 | 74.825 |
MTEB MMarcoRetrieval | dev | ndcg_at_5 | 76.9 |
MTEB MMarcoRetrieval | dev | precision_at_1 | 68.009 |
MTEB MMarcoRetrieval | dev | precision_at_10 | 9.463000000000001 |
MTEB MMarcoRetrieval | dev | precision_at_100 | 1.023 |
MTEB MMarcoRetrieval | dev | precision_at_1000 | 0.105 |
MTEB MMarcoRetrieval | dev | precision_at_3 | 28.075 |
MTEB MMarcoRetrieval | dev | precision_at_5 | 17.951 |
MTEB MMarcoRetrieval | dev | recall_at_1 | 65.837 |
MTEB MMarcoRetrieval | dev | recall_at_10 | 89.00099999999999 |
MTEB MMarcoRetrieval | dev | recall_at_100 | 95.968 |
MTEB MMarcoRetrieval | dev | recall_at_1000 | 98.461 |
MTEB MMarcoRetrieval | dev | recall_at_3 | 79.69800000000001 |
MTEB MMarcoRetrieval | dev | recall_at_5 | 84.623 |
MTEB MedicalRetrieval | dev | map_at_1 | 49.2 |
MTEB MedicalRetrieval | dev | map_at_10 | 55.394 |
MTEB MedicalRetrieval | dev | map_at_100 | 55.883 |
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98