Sbert Chinese General V1
S
Sbert Chinese General V1
DMetaSoulによって開発
文類似度計算と意味検索タスクのための汎用中国語文埋め込みモデル。
ダウンロード数 388
リリース時間 : 3/25/2022
モデル概要
このモデルはトランスフォーマーベースの中国語文埋め込みモデルで、主に文類似度計算、特徴抽出、意味検索などのタスクに使用されます。
モデル特徴
中国語最適化
中国語テキストに特化して最適化されており、中国語の意味処理をより効果的に行えます。
マルチタスク対応
文類似度計算、意味検索、テキスト分類など、様々な自然言語処理タスクに対応しています。
効率的な特徴抽出
テキストから意味のある特徴を迅速かつ効率的に抽出できます。
モデル能力
文類似度計算
意味検索
特徴抽出
テキスト分類
クラスタリング分析
再ランキング
バイリンガルテキストマイニング
使用事例
情報検索
EC製品検索
ECプラットフォームの意味的製品検索に使用され、検索結果の関連性を向上させます。
EC検索タスクで良好な性能を発揮
医療情報検索
ユーザーが関連する医療情報や文書を検索するのを支援します。
医療検索タスクで一定の効果を達成
テキスト分析
レビュー感情分析
ユーザーレビューの感情傾向を分析します。
JD.comのレビュー分類タスクで82.2%の精度を達成
意図認識
ユーザーテキスト中の意図を識別します。
大規模意図分類タスクで57.3%の精度を達成
クロスランゲージアプリケーション
中英バイリンガルテキストマイニング
中国語と英語のテキストのアラインメントとマイニングに使用されます。
BUCCバイリンガルテキストマイニングタスクで良好な性能
🚀 sbert-chinese-general-v1
このモデルは、文章の類似度を測定するためのモデルです。Sentence Transformersをベースに構築されており、様々なタスクでの性能が評価されています。
📚 ドキュメント
モデル情報
属性 | 詳情 |
---|---|
パイプラインタグ | 文章の類似度 |
タグ | sentence-transformers、feature-extraction、sentence-similarity、transformers、semantic-search、chinese、mteb |
モデル名 | sbert-chinese-general-v1 |
評価結果
以下は、様々なデータセットとタスクでの評価結果です。
STSタスク
データセット | 評価指標 | 値 |
---|---|---|
C-MTEB/AFQMC | cos_sim_pearson | 22.293919432958074 |
C-MTEB/AFQMC | cos_sim_spearman | 22.56718923553609 |
C-MTEB/AFQMC | euclidean_pearson | 22.525656322797026 |
C-MTEB/AFQMC | euclidean_spearman | 22.56718923553609 |
C-MTEB/AFQMC | manhattan_pearson | 22.501773028824065 |
C-MTEB/AFQMC | manhattan_spearman | 22.536992587828397 |
C-MTEB/ATEC | cos_sim_pearson | 30.33575274463879 |
C-MTEB/ATEC | cos_sim_spearman | 30.298708742167772 |
C-MTEB/ATEC | euclidean_pearson | 32.33094743729218 |
C-MTEB/ATEC | euclidean_spearman | 30.298710993858734 |
C-MTEB/ATEC | manhattan_pearson | 32.31155376195945 |
C-MTEB/ATEC | manhattan_spearman | 30.267669681690744 |
C-MTEB/BQ | cos_sim_pearson | 41.493256724214255 |
C-MTEB/BQ | cos_sim_spearman | 40.98395961967895 |
C-MTEB/BQ | euclidean_pearson | 41.12345737966565 |
C-MTEB/BQ | euclidean_spearman | 40.983959619555996 |
C-MTEB/BQ | manhattan_pearson | 41.02584539471014 |
C-MTEB/BQ | manhattan_spearman | 40.87549513383032 |
C-MTEB/LCQMC | cos_sim_pearson | 62.84331627244547 |
C-MTEB/LCQMC | cos_sim_spearman | 68.39990265073726 |
C-MTEB/LCQMC | euclidean_pearson | 66.87431827169324 |
C-MTEB/LCQMC | euclidean_spearman | 68.39990264979167 |
C-MTEB/LCQMC | manhattan_pearson | 66.89702078900328 |
C-MTEB/LCQMC | manhattan_spearman | 68.42107302159141 |
分類タスク
データセット | 評価指標 | 値 |
---|---|---|
mteb/amazon_reviews_multi (zh) | accuracy | 37.507999999999996 |
mteb/amazon_reviews_multi (zh) | f1 | 36.436808400753286 |
C-MTEB/IFlyTek-classification | accuracy | 44.878799538283964 |
C-MTEB/IFlyTek-classification | f1 | 33.84678310261366 |
C-MTEB/JDReview-classification | accuracy | 82.1951219512195 |
C-MTEB/JDReview-classification | ap | 46.78292030042397 |
C-MTEB/JDReview-classification | f1 | 76.20482468514128 |
mteb/amazon_massive_intent (zh-CN) | accuracy | 57.343644922663074 |
mteb/amazon_massive_intent (zh-CN) | f1 | 56.744802953803486 |
mteb/amazon_massive_scenario (zh-CN) | (データ未記載) | (データ未記載) |
再ランキングタスク
データセット | 評価指標 | 値 |
---|---|---|
C-MTEB/CMedQAv1-reranking | map | 53.06586280826805 |
C-MTEB/CMedQAv1-reranking | mrr | 59.58781746031746 |
C-MTEB/CMedQAv2-reranking | map | 52.83635946154306 |
C-MTEB/CMedQAv2-reranking | mrr | 59.315079365079356 |
C-MTEB/Mmarco-reranking | map | 9.28600891904827 |
C-MTEB/Mmarco-reranking | mrr | 8.057936507936509 |
検索タスク
データセット | 評価指標 | 値 |
---|---|---|
C-MTEB/CmedqaRetrieval | map_at_1 | 5.721 |
C-MTEB/CmedqaRetrieval | map_at_10 | 8.645 |
C-MTEB/CmedqaRetrieval | map_at_100 | 9.434 |
C-MTEB/CmedqaRetrieval | map_at_1000 | 9.586 |
C-MTEB/CmedqaRetrieval | map_at_3 | 7.413 |
C-MTEB/CmedqaRetrieval | map_at_5 | 8.05 |
C-MTEB/CmedqaRetrieval | mrr_at_1 | 9.626999999999999 |
C-MTEB/CmedqaRetrieval | mrr_at_10 | 13.094 |
C-MTEB/CmedqaRetrieval | mrr_at_100 | 13.854 |
C-MTEB/CmedqaRetrieval | mrr_at_1000 | 13.958 |
C-MTEB/CmedqaRetrieval | mrr_at_3 | 11.724 |
C-MTEB/CmedqaRetrieval | mrr_at_5 | 12.409 |
C-MTEB/CmedqaRetrieval | ndcg_at_1 | 9.626999999999999 |
C-MTEB/CmedqaRetrieval | ndcg_at_10 | 11.35 |
C-MTEB/CmedqaRetrieval | ndcg_at_100 | 15.593000000000002 |
C-MTEB/CmedqaRetrieval | ndcg_at_1000 | 19.619 |
C-MTEB/CmedqaRetrieval | ndcg_at_3 | 9.317 |
C-MTEB/CmedqaRetrieval | ndcg_at_5 | 10.049 |
C-MTEB/CmedqaRetrieval | precision_at_1 | 9.626999999999999 |
C-MTEB/CmedqaRetrieval | precision_at_10 | 2.796 |
C-MTEB/CmedqaRetrieval | precision_at_100 | 0.629 |
C-MTEB/CmedqaRetrieval | precision_at_1000 | 0.11800000000000001 |
C-MTEB/CmedqaRetrieval | precision_at_3 | 5.476 |
C-MTEB/CmedqaRetrieval | precision_at_5 | 4.1209999999999996 |
C-MTEB/CmedqaRetrieval | recall_at_1 | 5.721 |
C-MTEB/CmedqaRetrieval | recall_at_10 | 15.190000000000001 |
C-MTEB/CmedqaRetrieval | recall_at_100 | 33.633 |
C-MTEB/CmedqaRetrieval | recall_at_1000 | 62.019999999999996 |
C-MTEB/CmedqaRetrieval | recall_at_3 | 9.099 |
C-MTEB/CmedqaRetrieval | recall_at_5 | 11.423 |
C-MTEB/CovidRetrieval | map_at_1 | 26.976 |
C-MTEB/CovidRetrieval | map_at_10 | 35.18 |
C-MTEB/CovidRetrieval | map_at_100 | 35.921 |
C-MTEB/CovidRetrieval | map_at_1000 | 35.998999999999995 |
C-MTEB/CovidRetrieval | map_at_3 | 32.763 |
C-MTEB/CovidRetrieval | map_at_5 | 34.165 |
C-MTEB/CovidRetrieval | mrr_at_1 | 26.976 |
C-MTEB/CovidRetrieval | mrr_at_10 | 35.234 |
C-MTEB/CovidRetrieval | mrr_at_100 | 35.939 |
C-MTEB/CovidRetrieval | mrr_at_1000 | 36.016 |
C-MTEB/CovidRetrieval | mrr_at_3 | 32.771 |
C-MTEB/CovidRetrieval | mrr_at_5 | 34.172999999999995 |
C-MTEB/CovidRetrieval | ndcg_at_1 | 26.976 |
C-MTEB/CovidRetrieval | ndcg_at_10 | 39.635 |
C-MTEB/CovidRetrieval | ndcg_at_100 | 43.54 |
C-MTEB/CovidRetrieval | ndcg_at_1000 | 45.723 |
C-MTEB/CovidRetrieval | ndcg_at_3 | 34.652 |
C-MTEB/CovidRetrieval | ndcg_at_5 | 37.186 |
C-MTEB/CovidRetrieval | precision_at_1 | 26.976 |
C-MTEB/CovidRetrieval | precision_at_10 | 5.406 |
C-MTEB/CovidRetrieval | precision_at_100 | 0.736 |
C-MTEB/CovidRetrieval | precision_at_1000 | 0.091 |
C-MTEB/CovidRetrieval | precision_at_3 | 13.418 |
C-MTEB/CovidRetrieval | precision_at_5 | 9.293999999999999 |
C-MTEB/CovidRetrieval | recall_at_1 | 26.976 |
C-MTEB/CovidRetrieval | recall_at_10 | 53.766999999999996 |
C-MTEB/CovidRetrieval | recall_at_100 | 72.761 |
C-MTEB/CovidRetrieval | recall_at_1000 | 90.148 |
C-MTEB/CovidRetrieval | recall_at_3 | 40.095 |
C-MTEB/CovidRetrieval | recall_at_5 | 46.233000000000004 |
C-MTEB/DuRetrieval | map_at_1 | 11.285 |
C-MTEB/DuRetrieval | map_at_10 | 30.259000000000004 |
C-MTEB/DuRetrieval | map_at_100 | 33.772000000000006 |
C-MTEB/DuRetrieval | map_at_1000 | 34.037 |
C-MTEB/DuRetrieval | map_at_3 | 21.038999999999998 |
C-MTEB/DuRetrieval | map_at_5 | 25.939 |
C-MTEB/DuRetrieval | mrr_at_1 | 45.1 |
C-MTEB/DuRetrieval | mrr_at_10 | 55.803999999999995 |
C-MTEB/DuRetrieval | mrr_at_100 | 56.301 |
C-MTEB/DuRetrieval | mrr_at_1000 | 56.330999999999996 |
C-MTEB/DuRetrieval | mrr_at_3 | 53.333 |
C-MTEB/DuRetrieval | mrr_at_5 | 54.798 |
C-MTEB/DuRetrieval | ndcg_at_1 | 45.1 |
C-MTEB/DuRetrieval | ndcg_at_10 | 41.156 |
C-MTEB/DuRetrieval | ndcg_at_100 | 49.518 |
C-MTEB/DuRetrieval | ndcg_at_1000 | 52.947 |
C-MTEB/DuRetrieval | ndcg_at_3 | 39.708 |
C-MTEB/DuRetrieval | ndcg_at_5 | 38.704 |
C-MTEB/DuRetrieval | precision_at_1 | 45.1 |
C-MTEB/DuRetrieval | precision_at_10 | 20.75 |
C-MTEB/DuRetrieval | precision_at_100 | 3.424 |
C-MTEB/DuRetrieval | precision_at_1000 | 0.42700000000000005 |
C-MTEB/DuRetrieval | precision_at_3 | 35.632999999999996 |
C-MTEB/DuRetrieval | precision_at_5 | 30.080000000000002 |
C-MTEB/DuRetrieval | recall_at_1 | 11.285 |
C-MTEB/DuRetrieval | recall_at_10 | 43.242000000000004 |
C-MTEB/DuRetrieval | recall_at_100 | 68.604 |
C-MTEB/DuRetrieval | recall_at_1000 | 85.904 |
C-MTEB/DuRetrieval | recall_at_3 | 24.404 |
C-MTEB/DuRetrieval | recall_at_5 | 32.757 |
C-MTEB/EcomRetrieval | map_at_1 | 21 |
C-MTEB/EcomRetrieval | map_at_10 | 28.364 |
C-MTEB/EcomRetrieval | map_at_100 | 29.199 |
C-MTEB/EcomRetrieval | map_at_1000 | 29.265 |
C-MTEB/EcomRetrieval | map_at_3 | 25.717000000000002 |
C-MTEB/EcomRetrieval | map_at_5 | 27.311999999999998 |
C-MTEB/EcomRetrieval | mrr_at_1 | 21 |
C-MTEB/EcomRetrieval | mrr_at_10 | 28.364 |
C-MTEB/EcomRetrieval | mrr_at_100 | 29.199 |
C-MTEB/EcomRetrieval | mrr_at_1000 | 29.265 |
C-MTEB/EcomRetrieval | mrr_at_3 | 25.717000000000002 |
C-MTEB/EcomRetrieval | mrr_at_5 | 27.311999999999998 |
C-MTEB/EcomRetrieval | ndcg_at_1 | 21 |
C-MTEB/EcomRetrieval | ndcg_at_10 | 32.708 |
C-MTEB/EcomRetrieval | ndcg_at_100 | 37.184 |
C-MTEB/EcomRetrieval | ndcg_at_1000 | 39.273 |
C-MTEB/EcomRetrieval | ndcg_at_3 | 27.372000000000003 |
C-MTEB/EcomRetrieval | ndcg_at_5 | 30.23 |
C-MTEB/EcomRetrieval | precision_at_1 | 21 |
C-MTEB/EcomRetrieval | precision_at_10 | 4.66 |
C-MTEB/EcomRetrieval | precision_at_100 | 0.685 |
C-MTEB/EcomRetrieval | precision_at_1000 | 0.086 |
C-MTEB/EcomRetrieval | precision_at_3 | 10.732999999999999 |
C-MTEB/EcomRetrieval | precision_at_5 | 7.82 |
C-MTEB/EcomRetrieval | recall_at_1 | 21 |
C-MTEB/EcomRetrieval | recall_at_10 | 46.6 |
C-MTEB/EcomRetrieval | recall_at_100 | 68.5 |
C-MTEB/EcomRetrieval | recall_at_1000 | 85.6 |
C-MTEB/EcomRetrieval | recall_at_3 | 32.2 |
C-MTEB/EcomRetrieval | recall_at_5 | 39.1 |
C-MTEB/MMarcoRetrieval | map_at_1 | 22.820999999999998 |
C-MTEB/MMarcoRetrieval | map_at_10 | 30.44 |
C-MTEB/MMarcoRetrieval | map_at_100 | 31.35 |
C-MTEB/MMarcoRetrieval | map_at_1000 | 31.419000000000004 |
C-MTEB/MMarcoRetrieval | map_at_3 | 28.134999999999998 |
C-MTEB/MMarcoRetrieval | map_at_5 | 29.482000000000003 |
C-MTEB/MMarcoRetrieval | mrr_at_1 | 23.782 |
C-MTEB/MMarcoRetrieval | mrr_at_10 | 31.141999999999996 |
C-MTEB/MMarcoRetrieval | mrr_at_100 | 32.004 |
C-MTEB/MMarcoRetrieval | mrr_at_1000 | 32.068000000000005 |
C-MTEB/MMarcoRetrieval | mrr_at_3 | 28.904000000000003 |
C-MTEB/MMarcoRetrieval | mrr_at_5 | 30.214999999999996 |
C-MTEB/MMarcoRetrieval | ndcg_at_1 | 23.782 |
C-MTEB/MMarcoRetrieval | ndcg_at_10 | 34.625 |
C-MTEB/MMarcoRetrieval | ndcg_at_100 | 39.226 |
C-MTEB/MMarcoRetrieval | ndcg_at_1000 | 41.128 |
C-MTEB/MMarcoRetrieval | ndcg_at_3 | 29.968 |
C-MTEB/MMarcoRetrieval | ndcg_at_5 | 32.35 |
C-MTEB/MMarcoRetrieval | precision_at_1 | 23.782 |
C-MTEB/MMarcoRetrieval | precision_at_10 | 4.994 |
C-MTEB/MMarcoRetrieval | precision_at_100 | 0.736 |
C-MTEB/MMarcoRetrieval | precision_at_1000 | 0.09 |
C-MTEB/MMarcoRetrieval | precision_at_3 | 12.13 |
C-MTEB/MMarcoRetrieval | precision_at_5 | 8.495999999999999 |
C-MTEB/MMarcoRetrieval | recall_at_1 | 22.820999999999998 |
C-MTEB/MMarcoRetrieval | recall_at_10 | 47.141 |
C-MTEB/MMarcoRetrieval | recall_at_100 | 68.952 |
C-MTEB/MMarcoRetrieval | recall_at_1000 | 83.985 |
C-MTEB/MMarcoRetrieval | recall_at_3 | 34.508 |
C-MTEB/MMarcoRetrieval | recall_at_5 | 40.232 |
ペア分類タスク
データセット | 評価指標 | 値 |
---|---|---|
C-MTEB/CMNLI | cos_sim_accuracy | 77.36620565243535 |
C-MTEB/CMNLI | cos_sim_ap | 85.92291866877001 |
C-MTEB/CMNLI | cos_sim_f1 | 78.19390231037029 |
C-MTEB/CMNLI | cos_sim_precision | 71.24183006535948 |
C-MTEB/CMNLI | cos_sim_recall | 86.64952069207388 |
C-MTEB/CMNLI | dot_accuracy | 77.36620565243535 |
C-MTEB/CMNLI | dot_ap | 85.94113738490068 |
C-MTEB/CMNLI | dot_f1 | 78.19390231037029 |
C-MTEB/CMNLI | dot_precision | 71.24183006535948 |
C-MTEB/CMNLI | dot_recall | 86.64952069207388 |
C-MTEB/CMNLI | euclidean_accuracy | 77.36620565243535 |
C-MTEB/CMNLI | euclidean_ap | 85.92291893444687 |
C-MTEB/CMNLI | euclidean_f1 | 78.19390231037029 |
C-MTEB/CMNLI | euclidean_precision | 71.24183006535948 |
C-MTEB/CMNLI | euclidean_recall | 86.64952069207388 |
C-MTEB/CMNLI | manhattan_accuracy | 77.29404690318701 |
C-MTEB/CMNLI | manhattan_ap | 85.88284362100919 |
C-MTEB/CMNLI | manhattan_f1 | 78.17836812144213 |
C-MTEB/CMNLI | manhattan_precision | 71.18448838548666 |
C-MTEB/CMNLI | manhattan_recall | 86.69628244096329 |
C-MTEB/CMNLI | max_accuracy | 77.36620565243535 |
C-MTEB/CMNLI | max_ap | 85.94113738490068 |
C-MTEB/CMNLI | max_f1 | 78.19390231037029 |
バイテキストマイニングタスク
データセット | 評価指標 | 値 |
---|---|---|
mteb/bucc-bitext-mining (zh-en) | accuracy | 9.794628751974724 |
mteb/bucc-bitext-mining (zh-en) | f1 | 9.350535369492716 |
mteb/bucc-bitext-mining (zh-en) | precision | 9.179392662804986 |
mteb/bucc-bitext-mining (zh-en) | recall | 9.794628751974724 |
クラスタリングタスク
データセット | 評価指標 | 値 |
---|---|---|
C-MTEB/CLSClusteringP2P | v_measure | 34.984726547788284 |
C-MTEB/CLSClusteringS2S | v_measure | 27.81945732281589 |
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98