Piccolo Base Zh
P
Piccolo Base Zh
sensenovaによって開発
Piccoloは中国語基礎モデルで、意味的テキスト類似性(STS)、分類、クラスタリング、検索など様々な自然言語処理タスクに特化しています。
ダウンロード数 303
リリース時間 : 9/4/2023
モデル概要
このモデルは中国語テキスト処理タスクで優れた性能を発揮し、意味的類似度計算、テキスト分類、クラスタリング分析、情報検索などの機能をサポートします。
モデル特徴
マルチタスクサポート
意味的類似度計算、テキスト分類、クラスタリング、情報検索など、様々な自然言語処理タスクを処理可能です。
中国語最適化
中国語テキスト処理に特化して最適化されており、複数の中国語NLPタスクで良好な性能を発揮します。
高性能検索
医療QA検索タスクで優れた性能を発揮し、map@1000が37.576、recall@1000が98.196%を達成しました。
モデル能力
意味的テキスト類似度計算
テキスト分類
テキストクラスタリング
情報検索
QA再ランキング
使用事例
医療QA
医療QA検索
医療問題に関連する回答を検索するために使用
CMedQAデータセットでmap@1000が37.576を達成
医療QA再ランキング
検索された医療QA結果を関連性で並べ替え
CMedQAv2データセットでmrrが88.535を達成
テキスト理解
意味的類似度判断
2つの中国語テキストの意味的類似度を判断
AFQMCデータセットでcos_sim_spearmanが51.405を達成
テキスト分類
中国語テキストを分類
AmazonReviews中国語データセットで精度40.236%を達成
🚀 piccolo-base-zh
piccolo-base-zh
は、MTEB(Massive Text Embedding Benchmark)の様々なタスクで評価されたモデルです。このモデルは、テキストの意味的類似性、分類、検索、クラスタリングなどのタスクで高い性能を発揮します。
📚 詳細ドキュメント
評価タスクとメトリクス
以下は、piccolo-base-zh
モデルの各種タスクでの評価結果です。
STS(Semantic Textual Similarity)タスク
データセット | メトリクス | 値 |
---|---|---|
C-MTEB/AFQMC | cos_sim_pearson | 49.16558217326158 |
C-MTEB/AFQMC | cos_sim_spearman | 51.4049475858823 |
C-MTEB/AFQMC | euclidean_pearson | 49.85853741070363 |
C-MTEB/AFQMC | euclidean_spearman | 51.501428092542234 |
C-MTEB/AFQMC | manhattan_pearson | 49.746099634926296 |
C-MTEB/AFQMC | manhattan_spearman | 51.41081804320127 |
C-MTEB/ATEC | cos_sim_pearson | 52.385361699031854 |
C-MTEB/ATEC | cos_sim_spearman | 52.59114913702212 |
C-MTEB/ATEC | euclidean_pearson | 54.994530439418355 |
C-MTEB/ATEC | euclidean_spearman | 52.54102886188004 |
C-MTEB/ATEC | manhattan_pearson | 54.9503071669608 |
C-MTEB/ATEC | manhattan_spearman | 52.51465652540901 |
C-MTEB/BQ | cos_sim_pearson | 60.98952187211432 |
C-MTEB/BQ | cos_sim_spearman | 62.68189713123115 |
C-MTEB/BQ | euclidean_pearson | 61.089426749761344 |
C-MTEB/BQ | euclidean_spearman | 62.41743375544581 |
C-MTEB/BQ | manhattan_pearson | 61.14747216341409 |
C-MTEB/BQ | manhattan_spearman | 62.488918956547046 |
C-MTEB/LCQMC | cos_sim_pearson | 70.02878561337955 |
C-MTEB/LCQMC | cos_sim_spearman | 75.39509553139982 |
C-MTEB/LCQMC | euclidean_pearson | 73.92598696939956 |
C-MTEB/LCQMC | euclidean_spearman | 75.5471147196853 |
C-MTEB/LCQMC | manhattan_pearson | 73.88049486090739 |
C-MTEB/LCQMC | manhattan_spearman | 75.51361990583285 |
Classification(分類)タスク
データセット | メトリクス | 値 |
---|---|---|
mteb/amazon_reviews_multi | accuracy | 40.236 |
mteb/amazon_reviews_multi | f1 | 39.43040092463147 |
C-MTEB/IFlyTek-classification | accuracy | 44.34782608695652 |
C-MTEB/IFlyTek-classification | f1 | 36.401426200836205 |
C-MTEB/JDReview-classification | accuracy | 84.25891181988743 |
C-MTEB/JDReview-classification | ap | 50.54636280166089 |
C-MTEB/JDReview-classification | f1 | 78.55080202541332 |
mteb/amazon_massive_intent | accuracy | 68.97108271687962 |
mteb/amazon_massive_intent | f1 | 66.8625981386677 |
mteb/amazon_massive_scenario | accuracy | 73.32212508406187 |
mteb/amazon_massive_scenario | f1 | 73.33875034670166 |
Clustering(クラスタリング)タスク
データセット | メトリクス | 値 |
---|---|---|
C-MTEB/CLSClusteringP2P | v_measure | 38.36392300667918 |
C-MTEB/CLSClusteringS2S | v_measure | 35.645927581489175 |
Reranking(再ランキング)タスク
データセット | メトリクス | 値 |
---|---|---|
C-MTEB/CMedQAv1-reranking | map | 85.25085782849087 |
C-MTEB/CMedQAv1-reranking | mrr | 87.77154761904762 |
C-MTEB/CMedQAv2-reranking | map | 86.15357754080844 |
C-MTEB/CMedQAv2-reranking | mrr | 88.53547619047617 |
Retrieval(検索)タスク
データセット | メトリクス | 値 |
---|---|---|
C-MTEB/CmedqaRetrieval | map_at_1 | 23.683 |
C-MTEB/CmedqaRetrieval | map_at_10 | 35.522999999999996 |
C-MTEB/CmedqaRetrieval | map_at_100 | 37.456 |
C-MTEB/CmedqaRetrieval | map_at_1000 | 37.576 |
C-MTEB/CmedqaRetrieval | map_at_3 | 31.584 |
C-MTEB/CmedqaRetrieval | map_at_5 | 33.684999999999995 |
C-MTEB/CmedqaRetrieval | mrr_at_1 | 36.459 |
C-MTEB/CmedqaRetrieval | mrr_at_10 | 44.534 |
C-MTEB/CmedqaRetrieval | mrr_at_100 | 45.6 |
C-MTEB/CmedqaRetrieval | mrr_at_1000 | 45.647 |
C-MTEB/CmedqaRetrieval | mrr_at_3 | 42.186 |
C-MTEB/CmedqaRetrieval | mrr_at_5 | 43.482 |
C-MTEB/CmedqaRetrieval | ndcg_at_1 | 36.459 |
C-MTEB/CmedqaRetrieval | ndcg_at_10 | 42.025 |
C-MTEB/CmedqaRetrieval | ndcg_at_100 | 49.754 |
C-MTEB/CmedqaRetrieval | ndcg_at_1000 | 51.815999999999995 |
C-MTEB/CmedqaRetrieval | ndcg_at_3 | 37.056 |
C-MTEB/CmedqaRetrieval | ndcg_at_5 | 38.962 |
C-MTEB/CmedqaRetrieval | precision_at_1 | 36.459 |
C-MTEB/CmedqaRetrieval | precision_at_10 | 9.485000000000001 |
C-MTEB/CmedqaRetrieval | precision_at_100 | 1.567 |
C-MTEB/CmedqaRetrieval | precision_at_1000 | 0.183 |
C-MTEB/CmedqaRetrieval | precision_at_3 | 21.13 |
C-MTEB/CmedqaRetrieval | precision_at_5 | 15.209 |
C-MTEB/CmedqaRetrieval | recall_at_1 | 23.683 |
C-MTEB/CmedqaRetrieval | recall_at_10 | 52.190999999999995 |
C-MTEB/CmedqaRetrieval | recall_at_100 | 84.491 |
C-MTEB/CmedqaRetrieval | recall_at_1000 | 98.19600000000001 |
C-MTEB/CmedqaRetrieval | recall_at_3 | 37.09 |
C-MTEB/CmedqaRetrieval | recall_at_5 | 43.262 |
C-MTEB/CovidRetrieval | map_at_1 | 72.99799999999999 |
C-MTEB/CovidRetrieval | map_at_10 | 81.271 |
C-MTEB/CovidRetrieval | map_at_100 | 81.53399999999999 |
C-MTEB/CovidRetrieval | map_at_1000 | 81.535 |
C-MTEB/CovidRetrieval | map_at_3 | 80.049 |
C-MTEB/CovidRetrieval | map_at_5 | 80.793 |
C-MTEB/CovidRetrieval | mrr_at_1 | 73.13 |
C-MTEB/CovidRetrieval | mrr_at_10 | 81.193 |
C-MTEB/CovidRetrieval | mrr_at_100 | 81.463 |
C-MTEB/CovidRetrieval | mrr_at_1000 | 81.464 |
C-MTEB/CovidRetrieval | mrr_at_3 | 80.067 |
C-MTEB/CovidRetrieval | mrr_at_5 | 80.741 |
C-MTEB/CovidRetrieval | ndcg_at_1 | 73.34 |
C-MTEB/CovidRetrieval | ndcg_at_10 | 84.503 |
C-MTEB/CovidRetrieval | ndcg_at_100 | 85.643 |
C-MTEB/CovidRetrieval | ndcg_at_1000 | 85.693 |
C-MTEB/CovidRetrieval | ndcg_at_3 | 82.135 |
C-MTEB/CovidRetrieval | ndcg_at_5 | 83.401 |
C-MTEB/CovidRetrieval | precision_at_1 | 73.34 |
C-MTEB/CovidRetrieval | precision_at_10 | 9.536 |
C-MTEB/CovidRetrieval | precision_at_100 | 1.004 |
C-MTEB/CovidRetrieval | precision_at_1000 | 0.101 |
C-MTEB/CovidRetrieval | precision_at_3 | 29.54 |
C-MTEB/CovidRetrieval | precision_at_5 | 18.398 |
C-MTEB/CovidRetrieval | recall_at_1 | 72.99799999999999 |
C-MTEB/CovidRetrieval | recall_at_10 | 94.31 |
C-MTEB/CovidRetrieval | recall_at_100 | 99.368 |
C-MTEB/CovidRetrieval | recall_at_1000 | 99.789 |
C-MTEB/CovidRetrieval | recall_at_3 | 87.935 |
C-MTEB/CovidRetrieval | recall_at_5 | 90.991 |
C-MTEB/DuRetrieval | map_at_1 | 26.537 |
C-MTEB/DuRetrieval | map_at_10 | 81.292 |
C-MTEB/DuRetrieval | map_at_100 | 84.031 |
C-MTEB/DuRetrieval | map_at_1000 | 84.066 |
C-MTEB/DuRetrieval | map_at_3 | 56.571000000000005 |
C-MTEB/DuRetrieval | map_at_5 | 71.082 |
C-MTEB/DuRetrieval | mrr_at_1 | 91.2 |
C-MTEB/DuRetrieval | mrr_at_10 | 93.893 |
C-MTEB/DuRetrieval | mrr_at_100 | 93.955 |
C-MTEB/DuRetrieval | mrr_at_1000 | 93.95700000000001 |
C-MTEB/DuRetrieval | mrr_at_3 | 93.61699999999999 |
C-MTEB/DuRetrieval | mrr_at_5 | 93.767 |
C-MTEB/DuRetrieval | ndcg_at_1 | 91.2 |
C-MTEB/DuRetrieval | ndcg_at_10 | 88.255 |
C-MTEB/DuRetrieval | ndcg_at_100 | 90.813 |
C-MTEB/DuRetrieval | ndcg_at_1000 | 91.144 |
C-MTEB/DuRetrieval | ndcg_at_3 | 87.435 |
C-MTEB/DuRetrieval | ndcg_at_5 | 85.961 |
C-MTEB/DuRetrieval | precision_at_1 | 91.2 |
C-MTEB/DuRetrieval | precision_at_10 | 42.14 |
C-MTEB/DuRetrieval | precision_at_100 | 4.817 |
C-MTEB/DuRetrieval | precision_at_1000 | 0.48900000000000005 |
C-MTEB/DuRetrieval | precision_at_3 | 78.467 |
C-MTEB/DuRetrieval | precision_at_5 | 65.75999999999999 |
C-MTEB/DuRetrieval | recall_at_1 | 26.537 |
C-MTEB/DuRetrieval | recall_at_10 | 89.262 |
C-MTEB/DuRetrieval | recall_at_100 | 97.783 |
C-MTEB/DuRetrieval | recall_at_1000 | 99.49799999999999 |
C-MTEB/DuRetrieval | recall_at_3 | 58.573 |
C-MTEB/DuRetrieval | recall_at_5 | 75.154 |
C-MTEB/EcomRetrieval | map_at_1 | 48.5 |
C-MTEB/EcomRetrieval | map_at_10 | 57.898 |
C-MTEB/EcomRetrieval | map_at_100 | 58.599000000000004 |
C-MTEB/EcomRetrieval | map_at_1000 | 58.616 |
C-MTEB/EcomRetrieval | map_at_3 | 55.1 |
C-MTEB/EcomRetrieval | map_at_5 | 56.80500000000001 |
C-MTEB/EcomRetrieval | mrr_at_1 | 48.5 |
C-MTEB/EcomRetrieval | mrr_at_10 | 57.898 |
C-MTEB/EcomRetrieval | mrr_at_100 | 58.599000000000004 |
C-MTEB/EcomRetrieval | mrr_at_1000 | 58.616 |
C-MTEB/EcomRetrieval | mrr_at_3 | 55.1 |
C-MTEB/EcomRetrieval | mrr_at_5 | 56.80500000000001 |
C-MTEB/EcomRetrieval | ndcg_at_1 | 48.5 |
C-MTEB/EcomRetrieval | ndcg_at_10 | 62.876 |
C-MTEB/EcomRetrieval | ndcg_at_100 | 66.00200000000001 |
C-MTEB/EcomRetrieval | ndcg_at_1000 | 66.467 |
C-MTEB/EcomRetrieval | ndcg_at_3 | 57.162 |
C-MTEB/EcomRetrieval | ndcg_at_5 | 60.263999999999996 |
C-MTEB/EcomRetrieval | precision_at_1 | 48.5 |
C-MTEB/EcomRetrieval | precision_at_10 | 7.870000000000001 |
C-MTEB/EcomRetrieval | precision_at_100 | 0.927 |
C-MTEB/EcomRetrieval | precision_at_1000 | 0.096 |
C-MTEB/EcomRetrieval | precision_at_3 | 21.032999999999998 |
C-MTEB/EcomRetrieval | precision_at_5 | 14.14 |
C-MTEB/EcomRetrieval | recall_at_1 | 48.5 |
C-MTEB/EcomRetrieval | recall_at_10 | 78.7 |
C-MTEB/EcomRetrieval | recall_at_100 | 92.7 |
C-MTEB/EcomRetrieval | recall_at_1000 | 96.39999999999999 |
C-MTEB/EcomRetrieval | recall_at_3 | 63.1 |
C-MTEB/EcomRetrieval | recall_at_5 | 70.7 |
C-MTEB/MMarcoRetrieval | map_at_1 | 64.739 |
C-MTEB/MMarcoRetrieval | map_at_10 | 74.039 |
C-MTEB/MMarcoRetrieval | map_at_100 | 74.38 |
C-MTEB/MMarcoRetrieval | map_at_1000 | 74.39099999999999 |
C-MTEB/MMarcoRetrieval | map_at_3 | 72.074 |
C-MTEB/MMarcoRetrieval | map_at_5 | 73.29299999999999 |
C-MTEB/MMarcoRetrieval | mrr_at_1 | 66.92 |
C-MTEB/MMarcoRetrieval | mrr_at_10 | 74.636 |
C-MTEB/MMarcoRetrieval | mrr_at_100 | 74.94 |
C-MTEB/MMarcoRetrieval | mrr_at_1000 | 74.95 |
C-MTEB/MMarcoRetrieval | mrr_at_3 | 72.911 |
C-MTEB/MMarcoRetrieval | mrr_at_5 | 73.981 |
C-MTEB/MMarcoRetrieval | ndcg_at_1 | 66.92 |
C-MTEB/MMarcoRetrieval | ndcg_at_10 | 77.924 |
C-MTEB/MMarcoRetrieval | ndcg_at_100 | 79.471 |
C-MTEB/MMarcoRetrieval | ndcg_at_1000 | 79.73400000000001 |
C-MTEB/MMarcoRetrieval | ndcg_at_3 | 74.17200000000001 |
C-MTEB/MMarcoRetrieval | ndcg_at_5 | 76.236 |
C-MTEB/MMarcoRetrieval | precision_at_1 | 66.92 |
C-MTEB/MMarcoRetrieval | precision_at_10 | 9.5 |
C-MTEB/MMarcoRetrieval | precision_at_100 | 1.027 |
C-MTEB/MMarcoRetrieval | precision_at_1000 | 0.105 |
C-MTEB/MMarcoRetrieval | precision_at_3 | 27.989000000000004 |
C-MTEB/MMarcoRetrieval | precision_at_5 | 17.874000000000002 |
C-MTEB/MMarcoRetrieval | recall_at_1 | 64.739 |
C-MTEB/MMarcoRetrieval | recall_at_10 | 89.324 |
C-MTEB/MMarcoRetrieval | recall_at_100 | 96.342 |
C-MTEB/MMarcoRetrieval | recall_at_1000 | 98.38900000000001 |
C-MTEB/MMarcoRetrieval | recall_at_3 | 79.378 |
C-MTEB/MMarcoRetrieval | recall_at_5 | 84.28099999999999 |
C-MTEB/MedicalRetrieval | map_at_1 | 49.0 |
C-MTEB/MedicalRetrieval | map_at_10 | 55.022999999999996 |
C-MTEB/MedicalRetrieval | map_at_100 | 55.550999999999995 |
C-MTEB/MedicalRetrieval | map_at_1000 | 55.608000000000004 |
C-MTEB/MedicalRetrieval | map_at_3 | 53.417 |
C-MTEB/MedicalRetrieval | map_at_5 | 54.372 |
C-MTEB/MedicalRetrieval | mrr_at_1 | 49.3 |
C-MTEB/MedicalRetrieval | mrr_at_10 | 55.176 |
C-MTEB/MedicalRetrieval | mrr_at_100 | 55.703 |
C-MTEB/MedicalRetrieval | mrr_at_1000 | 55.76 |
C-MTEB/MedicalRetrieval | mrr_at_3 | 53.567 |
C-MTEB/MedicalRetrieval | mrr_at_5 | 54.522000000000006 |
C-MTEB/MedicalRetrieval | ndcg_at_1 | 49.0 |
C-MTEB/MedicalRetrieval | ndcg_at_10 | 58.089999999 |
PairClassification(ペア分類)タスク
データセット | メトリクス | 値 |
---|---|---|
C-MTEB/CMNLI | cos_sim_accuracy | 74.20324714371618 |
C-MTEB/CMNLI | cos_sim_ap | 82.32631646194994 |
C-MTEB/CMNLI | cos_sim_f1 | 76.64052827073876 |
C-MTEB/CMNLI | cos_sim_precision | 68.58725761772854 |
C-MTEB/CMNLI | cos_sim_recall | 86.83656768763151 |
C-MTEB/CMNLI | dot_accuracy | 70.33072760072159 |
C-MTEB/CMNLI | dot_ap | 77.46972172609794 |
C-MTEB/CMNLI | dot_f1 | 73.6668924804026 |
C-MTEB/CMNLI | dot_precision | 62.84676354029062 |
C-MTEB/CMNLI | dot_recall | 88.98760813654431 |
C-MTEB/CMNLI | euclidean_accuracy | 74.78051713770296 |
C-MTEB/CMNLI | euclidean_ap | 82.65778389584023 |
C-MTEB/CMNLI | euclidean_f1 | 77.1843623157445 |
C-MTEB/CMNLI | euclidean_precision | 71.05211406096362 |
C-MTEB/CMNLI | euclidean_recall | 84.47509936871639 |
C-MTEB/CMNLI | manhattan_accuracy | 74.76849067949489 |
C-MTEB/CMNLI | manhattan_ap | 82.55694030572194 |
C-MTEB/CMNLI | manhattan_f1 | 77.1776459569154 |
C-MTEB/CMNLI | manhattan_precision | 69.5423855963991 |
C-MTEB/CMNLI | manhattan_recall | 86.69628244096329 |
C-MTEB/CMNLI | max_accuracy | 74.78051713770296 |
C-MTEB/CMNLI | max_ap | 82.65778389584023 |
C-MTEB/CMNLI | max_f1 | 77.1843623157445 |
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98