Conan Embedding V1 Q4 K M GGUF
C
Conan Embedding V1 Q4 K M GGUF
lagoon999によって開発
Conan-embedding-v1はTencent BACチームによって開発された中国語テキスト埋め込みモデルで、sentence-transformersライブラリをベースにしており、様々な中国語自然言語処理タスクに適しています。
ダウンロード数 30
リリース時間 : 10/29/2024
モデル概要
このモデルは中国語テキストの埋め込み表現生成に特化しており、意味類似度計算、テキスト分類、クラスタリング、検索、再ランキングなど多様なタスクをサポートし、複数の中国語ベンチマークテストで優れた性能を発揮します。
モデル特徴
マルチタスクサポート
意味類似度計算、テキスト分類、クラスタリング、検索、再ランキングなど、様々な中国語NLPタスクをサポートします。
高性能
複数の中国語ベンチマークテストで優れた成績を収めており、特に医療分野関連のタスクで顕著な性能を発揮します。
中国語最適化
中国語テキストに特化して最適化されており、中国語の意味的特徴をより効果的に捉えることができます。
モデル能力
テキスト埋め込み生成
意味類似度計算
テキスト分類
テキストクラスタリング
情報検索
検索結果再ランキング
使用事例
医療分野
医療QA検索
医療関連質問の検索システムに使用され、ユーザーが迅速に関連医療情報を見つけるのを支援します。
CMedQA検索タスクでmap@100が42.495を達成
医療文書再ランキング
医療文書検索結果を関連性で再ランキングし、ユーザー体験を向上させます。
CMedQAv1再ランキングタスクでmrrが93.358を達成
電子商取引
商品レビュー分類
ECプラットフォームの商品レビューを感情やテーマで分類します。
JDReview分類タスクで精度90.318%を達成
商品検索
ECプラットフォームの商品検索関連性を向上させます。
EcomRetrievalタスクでndcg@10が70.991を達成
汎用NLP
意味類似度計算
2つの中国語テキスト間の意味類似度を計算します。
STSBタスクでcos_sim_spearmanが81.244を達成
テキストクラスタリング
中国語テキストの教師なしクラスタリング分析を行います。
CLSClusteringP2Pタスクでv_measureが60.635を達成
🚀 conan-embedding
このモデルは、TencentBAC/Conan-embedding-v1
をベースにした文埋め込みモデルです。MTEBの様々なタスクで評価され、多様なデータセットで良好な性能を示しています。
📚 ドキュメント
モデル情報
属性 | 詳情 |
---|---|
モデルタイプ | sentence-transformers |
ベースモデル | TencentBAC/Conan-embedding-v1 |
ライセンス | cc-by-nc-4.0 |
評価結果
STSタスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB AFQMC | cos_sim_pearson | 56.613572467148856 |
MTEB AFQMC | cos_sim_spearman | 60.66446211824284 |
MTEB AFQMC | euclidean_pearson | 58.42080485872613 |
MTEB AFQMC | euclidean_spearman | 59.82750030458164 |
MTEB AFQMC | manhattan_pearson | 58.39885271199772 |
MTEB AFQMC | manhattan_spearman | 59.817749720366734 |
MTEB ATEC | cos_sim_pearson | 56.60530380552331 |
MTEB ATEC | cos_sim_spearman | 58.63822441736707 |
MTEB ATEC | euclidean_pearson | 62.18551665180664 |
MTEB ATEC | euclidean_spearman | 58.23168804495912 |
MTEB ATEC | manhattan_pearson | 62.17191480770053 |
MTEB ATEC | manhattan_spearman | 58.22556219601401 |
MTEB BQ | cos_sim_pearson | 72.6472074172711 |
MTEB BQ | cos_sim_spearman | 74.50748447236577 |
MTEB BQ | euclidean_pearson | 72.51833296451854 |
MTEB BQ | euclidean_spearman | 73.9898922606105 |
MTEB BQ | manhattan_pearson | 72.50184948939338 |
MTEB BQ | manhattan_spearman | 73.97797921509638 |
MTEB LCQMC | cos_sim_pearson | 73.18906216730208 |
MTEB LCQMC | cos_sim_spearman | 79.44570226735877 |
MTEB LCQMC | euclidean_pearson | 78.8105072242798 |
MTEB LCQMC | euclidean_spearman | 79.15605680863212 |
MTEB LCQMC | manhattan_pearson | 78.80576507484064 |
MTEB LCQMC | manhattan_spearman | 79.14625534068364 |
分類タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB AmazonReviewsClassification (zh) | accuracy | 50.308 |
MTEB AmazonReviewsClassification (zh) | f1 | 46.927458607895126 |
MTEB IFlyTek | accuracy | 51.94305502116199 |
MTEB IFlyTek | f1 | 39.82197338426721 |
MTEB JDReview | accuracy | 90.31894934333957 |
MTEB JDReview | ap | 63.89821836499594 |
MTEB JDReview | f1 | 85.93687177603624 |
MTEB MassiveIntentClassification (zh-CN) | accuracy | 78.13718897108272 |
MTEB MassiveIntentClassification (zh-CN) | f1 | 74.07613180855328 |
MTEB MassiveScenarioClassification (zh-CN) | accuracy | 86.20040349697376 |
MTEB MassiveScenarioClassification (zh-CN) | f1 | 85.05282136519973 |
クラスタリングタスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CLSClusteringP2P | v_measure | 60.63545326048343 |
MTEB CLSClusteringS2S | v_measure | 52.64834762325994 |
再ランキングタスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CMedQAv1 | map | 91.38528814655234 |
MTEB CMedQAv1 | mrr | 93.35857142857144 |
MTEB CMedQAv2 | map | 89.72084678877096 |
MTEB CMedQAv2 | mrr | 91.74380952380953 |
MTEB MMarcoReranking | map | 41.58107192600853 |
MTEB MMarcoReranking | mrr | 41.37063492063492 |
検索タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB CmedqaRetrieval | map_at_1 | 26.987 |
MTEB CmedqaRetrieval | map_at_10 | 40.675 |
MTEB CmedqaRetrieval | map_at_100 | 42.495 |
MTEB CmedqaRetrieval | map_at_1000 | 42.596000000000004 |
MTEB CmedqaRetrieval | map_at_3 | 36.195 |
MTEB CmedqaRetrieval | map_at_5 | 38.704 |
MTEB CmedqaRetrieval | mrr_at_1 | 41.21 |
MTEB CmedqaRetrieval | mrr_at_10 | 49.816 |
MTEB CmedqaRetrieval | mrr_at_100 | 50.743 |
MTEB CmedqaRetrieval | mrr_at_1000 | 50.77700000000001 |
MTEB CmedqaRetrieval | mrr_at_3 | 47.312 |
MTEB CmedqaRetrieval | mrr_at_5 | 48.699999999999996 |
MTEB CmedqaRetrieval | ndcg_at_1 | 41.21 |
MTEB CmedqaRetrieval | ndcg_at_10 | 47.606 |
MTEB CmedqaRetrieval | ndcg_at_100 | 54.457 |
MTEB CmedqaRetrieval | ndcg_at_1000 | 56.16100000000001 |
MTEB CmedqaRetrieval | ndcg_at_3 | 42.108000000000004 |
MTEB CmedqaRetrieval | ndcg_at_5 | 44.393 |
MTEB CmedqaRetrieval | precision_at_1 | 41.21 |
MTEB CmedqaRetrieval | precision_at_10 | 10.593 |
MTEB CmedqaRetrieval | precision_at_100 | 1.609 |
MTEB CmedqaRetrieval | precision_at_1000 | 0.183 |
MTEB CmedqaRetrieval | precision_at_3 | 23.881 |
MTEB CmedqaRetrieval | precision_at_5 | 17.339 |
MTEB CmedqaRetrieval | recall_at_1 | 26.987 |
MTEB CmedqaRetrieval | recall_at_10 | 58.875 |
MTEB CmedqaRetrieval | recall_at_100 | 87.023 |
MTEB CmedqaRetrieval | recall_at_1000 | 98.328 |
MTEB CmedqaRetrieval | recall_at_3 | 42.265 |
MTEB CmedqaRetrieval | recall_at_5 | 49.334 |
MTEB CovidRetrieval | map_at_1 | 83.693 |
MTEB CovidRetrieval | map_at_10 | 90.098 |
MTEB CovidRetrieval | map_at_100 | 90.145 |
MTEB CovidRetrieval | map_at_1000 | 90.146 |
MTEB CovidRetrieval | map_at_3 | 89.445 |
MTEB CovidRetrieval | map_at_5 | 89.935 |
MTEB CovidRetrieval | mrr_at_1 | 83.878 |
MTEB CovidRetrieval | mrr_at_10 | 90.007 |
MTEB CovidRetrieval | mrr_at_100 | 90.045 |
MTEB CovidRetrieval | mrr_at_1000 | 90.046 |
MTEB CovidRetrieval | mrr_at_3 | 89.34 |
MTEB CovidRetrieval | mrr_at_5 | 89.835 |
MTEB CovidRetrieval | ndcg_at_1 | 84.089 |
MTEB CovidRetrieval | ndcg_at_10 | 92.351 |
MTEB CovidRetrieval | ndcg_at_100 | 92.54599999999999 |
MTEB CovidRetrieval | ndcg_at_1000 | 92.561 |
MTEB CovidRetrieval | ndcg_at_3 | 91.15299999999999 |
MTEB CovidRetrieval | ndcg_at_5 | 91.968 |
MTEB CovidRetrieval | precision_at_1 | 84.089 |
MTEB CovidRetrieval | precision_at_10 | 10.011000000000001 |
MTEB CovidRetrieval | precision_at_100 | 1.009 |
MTEB CovidRetrieval | precision_at_1000 | 0.101 |
MTEB CovidRetrieval | precision_at_3 | 32.28 |
MTEB CovidRetrieval | precision_at_5 | 19.789 |
MTEB CovidRetrieval | recall_at_1 | 83.693 |
MTEB CovidRetrieval | recall_at_10 | 99.05199999999999 |
MTEB CovidRetrieval | recall_at_100 | 99.895 |
MTEB CovidRetrieval | recall_at_1000 | 100 |
MTEB CovidRetrieval | recall_at_3 | 95.917 |
MTEB CovidRetrieval | recall_at_5 | 97.893 |
MTEB DuRetrieval | map_at_1 | 26.924 |
MTEB DuRetrieval | map_at_10 | 81.392 |
MTEB DuRetrieval | map_at_100 | 84.209 |
MTEB DuRetrieval | map_at_1000 | 84.237 |
MTEB DuRetrieval | map_at_3 | 56.998000000000005 |
MTEB DuRetrieval | map_at_5 | 71.40100000000001 |
MTEB DuRetrieval | mrr_at_1 | 91.75 |
MTEB DuRetrieval | mrr_at_10 | 94.45 |
MTEB DuRetrieval | mrr_at_100 | 94.503 |
MTEB DuRetrieval | mrr_at_1000 | 94.505 |
MTEB DuRetrieval | mrr_at_3 | 94.258 |
MTEB DuRetrieval | mrr_at_5 | 94.381 |
MTEB DuRetrieval | ndcg_at_1 | 91.75 |
MTEB DuRetrieval | ndcg_at_10 | 88.53 |
MTEB DuRetrieval | ndcg_at_100 | 91.13900000000001 |
MTEB DuRetrieval | ndcg_at_1000 | 91.387 |
MTEB DuRetrieval | ndcg_at_3 | 87.925 |
MTEB DuRetrieval | ndcg_at_5 | 86.461 |
MTEB DuRetrieval | precision_at_1 | 91.75 |
MTEB DuRetrieval | precision_at_10 | 42.05 |
MTEB DuRetrieval | precision_at_100 | 4.827 |
MTEB DuRetrieval | precision_at_1000 | 0.48900000000000005 |
MTEB DuRetrieval | precision_at_3 | 78.55 |
MTEB DuRetrieval | precision_at_5 | 65.82000000000001 |
MTEB DuRetrieval | recall_at_1 | 26.924 |
MTEB DuRetrieval | recall_at_10 | 89.338 |
MTEB DuRetrieval | recall_at_100 | 97.856 |
MTEB DuRetrieval | recall_at_1000 | 99.11 |
MTEB DuRetrieval | recall_at_3 | 59.202999999999996 |
MTEB DuRetrieval | recall_at_5 | 75.642 |
MTEB EcomRetrieval | map_at_1 | 54.800000000000004 |
MTEB EcomRetrieval | map_at_10 | 65.613 |
MTEB EcomRetrieval | map_at_100 | 66.185 |
MTEB EcomRetrieval | map_at_1000 | 66.191 |
MTEB EcomRetrieval | map_at_3 | 62.8 |
MTEB EcomRetrieval | map_at_5 | 64.535 |
MTEB EcomRetrieval | mrr_at_1 | 54.800000000000004 |
MTEB EcomRetrieval | mrr_at_10 | 65.613 |
MTEB EcomRetrieval | mrr_at_100 | 66.185 |
MTEB EcomRetrieval | mrr_at_1000 | 66.191 |
MTEB EcomRetrieval | mrr_at_3 | 62.8 |
MTEB EcomRetrieval | mrr_at_5 | 64.535 |
MTEB EcomRetrieval | ndcg_at_1 | 54.800000000000004 |
MTEB EcomRetrieval | ndcg_at_10 | 70.991 |
MTEB EcomRetrieval | ndcg_at_100 | 73.434 |
MTEB EcomRetrieval | ndcg_at_1000 | 73.587 |
MTEB EcomRetrieval | ndcg_at_3 | 65.324 |
MTEB EcomRetrieval | ndcg_at_5 | 68.431 |
MTEB EcomRetrieval | precision_at_1 | 54.800000000000004 |
MTEB EcomRetrieval | precision_at_10 | 8.790000000000001 |
MTEB EcomRetrieval | precision_at_100 | 0.9860000000000001 |
MTEB EcomRetrieval | precision_at_1000 | 0.1 |
MTEB EcomRetrieval | precision_at_3 | 24.2 |
MTEB EcomRetrieval | precision_at_5 | 16.02 |
MTEB EcomRetrieval | recall_at_1 | 54.800000000000004 |
MTEB EcomRetrieval | recall_at_10 | 87.9 |
MTEB EcomRetrieval | recall_at_100 | 98.6 |
MTEB EcomRetrieval | recall_at_1000 | 99.8 |
MTEB EcomRetrieval | recall_at_3 | 72.6 |
MTEB EcomRetrieval | recall_at_5 | 80.10000000000001 |
MTEB MedicalRetrieval | map_at_1 | 56.8 |
MTEB MedicalRetrieval | map_at_10 | 64.199 |
MTEB MedicalRetrieval | map_at_100 | 64.89 |
MTEB MedicalRetrieval | map_at_1000 | 64.917 |
MTEB MedicalRetrieval | map_at_3 | 62.383 |
MTEB MedicalRetrieval | map_at_5 | 63.378 |
MTEB MMarcoRetrieval | map_at_1 | 68.33 |
MTEB MMarcoRetrieval | map_at_10 | 78.261 |
MTEB MMarcoRetrieval | map_at_100 | 78.522 |
MTEB MMarcoRetrieval | map_at_1000 | 78.527 |
MTEB MMarcoRetrieval | map_at_3 | 76.236 |
MTEB MMarcoRetrieval | map_at_5 | 77.557 |
MTEB MMarcoRetrieval | mrr_at_1 | 70.602 |
MTEB MMarcoRetrieval | mrr_at_10 | 78.779 |
MTEB MMarcoRetrieval | mrr_at_100 | 79.00500000000001 |
MTEB MMarcoRetrieval | mrr_at_1000 | 79.01 |
MTEB MMarcoRetrieval | mrr_at_3 | 77.037 |
MTEB MMarcoRetrieval | mrr_at_5 | 78.157 |
MTEB MMarcoRetrieval | ndcg_at_1 | 70.602 |
MTEB MMarcoRetrieval | ndcg_at_10 | 82.254 |
MTEB MMarcoRetrieval | ndcg_at_100 | 83.319 |
MTEB MMarcoRetrieval | ndcg_at_1000 | 83.449 |
MTEB MMarcoRetrieval | ndcg_at_3 | 78.46 |
MTEB MMarcoRetrieval | ndcg_at_5 | 80.679 |
MTEB MMarcoRetrieval | precision_at_1 | 70.602 |
MTEB MMarcoRetrieval | precision_at_10 | 9.989 |
MTEB MMarcoRetrieval | precision_at_100 | 1.05 |
MTEB MMarcoRetrieval | precision_at_1000 | 0.106 |
MTEB MMarcoRetrieval | precision_at_3 | 29.598999999999997 |
MTEB MMarcoRetrieval | precision_at_5 | 18.948 |
MTEB MMarcoRetrieval | recall_at_1 | 68.33 |
MTEB MMarcoRetrieval | recall_at_10 | 94.00800000000001 |
MTEB MMarcoRetrieval | recall_at_100 | 98.589 |
MTEB MMarcoRetrieval | recall_at_1000 | 99.60799999999999 |
MTEB MMarcoRetrieval | recall_at_3 | 84.057 |
MTEB MMarcoRetrieval | recall_at_5 | 89.32900000000001 |
ペア分類タスク
データセット名 | 評価指標 | 値 |
---|---|---|
MTEB Cmnli | cos_sim_accuracy | 85.91701743836441 |
MTEB Cmnli | cos_sim_ap | 92.53650618807644 |
MTEB Cmnli | cos_sim_f1 | 86.80265975431082 |
MTEB Cmnli | cos_sim_precision | 83.79025239338556 |
MTEB Cmnli | cos_sim_recall | 90.039747486556 |
MTEB Cmnli | dot_accuracy | 77.17378232110643 |
MTEB Cmnli | dot_ap | 85.40244368166546 |
MTEB Cmnli | dot_f1 | 79.03038001481951 |
MTEB Cmnli | dot_precision | 72.20502901353966 |
MTEB Cmnli | dot_recall | 87.2808043020809 |
MTEB Cmnli | euclidean_accuracy | 84.65423932651834 |
MTEB Cmnli | euclidean_ap | 91.47775530034588 |
MTEB Cmnli | euclidean_f1 | 85.64471499723298 |
MTEB Cmnli | euclidean_precision | 81.31567885666246 |
MTEB Cmnli | euclidean_recall | 90.46060322656068 |
MTEB Cmnli | manhattan_accuracy | 84.58208057726999 |
MTEB Cmnli | manhattan_ap | 91.46228709402014 |
MTEB Cmnli | manhattan_f1 | 85.6631626034444 |
MTEB Cmnli | manhattan_precision | 82.10075026795283 |
MTEB Cmnli | manhattan_recall | 89.5487491232172 |
MTEB Cmnli | max_accuracy | 85.91701743836441 |
MTEB Cmnli | max_ap | 92.53650618807644 |
MTEB Cmnli | max_f1 | 86.80265975431082 |
📄 ライセンス
このモデルはcc-by-nc-4.0ライセンスの下で提供されています。
Jina Embeddings V3
Jina Embeddings V3 は100以上の言語をサポートする多言語文埋め込みモデルで、文の類似度と特徴抽出タスクに特化しています。
テキスト埋め込み
Transformers 複数言語対応

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
MS Marcoパッセージランキングタスクで訓練されたクロスエンコーダモデル、情報検索におけるクエリ-パッセージ関連性スコアリング用
テキスト埋め込み 英語
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
蒸留技術に基づくスパース検索モデルで、OpenSearch向けに最適化されており、推論不要のドキュメントエンコーディングをサポートし、検索関連性と効率性においてV1版を上回ります
テキスト埋め込み
Transformers 英語

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
PubMedBERTに基づく生物医学エンティティ表現モデルで、自己アライメント事前学習により意味関係の捕捉を最適化します。
テキスト埋め込み 英語
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Largeは強力なセンテンストランスフォーマーモデルで、文の類似度とテキスト埋め込みタスクに特化しており、複数のベンチマークテストで優れた性能を発揮します。
テキスト埋め込み 英語
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 は英語の文章変換モデルで、文章類似度タスクに特化しており、複数のテキスト埋め込みベンチマークで優れた性能を発揮します。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base は50以上の言語をサポートする多言語文埋め込みモデルで、文類似度計算などのタスクに適しています。
テキスト埋め込み
Transformers 複数言語対応

G
Alibaba-NLP
1.2M
246
Polybert
polyBERTは、完全に機械駆動の超高速ポリマー情報学を実現するための化学言語モデルです。PSMILES文字列を600次元の密なフィンガープリントにマッピングし、ポリマー化学構造を数値形式で表現します。
テキスト埋め込み
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
トルコ語BERTベースの文埋め込みモデルで、意味的類似性タスクに最適化
テキスト埋め込み
Transformers その他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
BAAI/bge-small-en-v1.5モデルを微調整したテキスト埋め込みモデルで、MEDIデータセットとMTEB分類タスクデータセットで訓練され、検索タスクのクエリエンコーディング能力を最適化しました。
テキスト埋め込み
Safetensors 英語
G
avsolatorio
945.68k
29
おすすめAIモデル
Llama 3 Typhoon V1.5x 8b Instruct
タイ語専用に設計された80億パラメータの命令モデルで、GPT-3.5-turboに匹敵する性能を持ち、アプリケーションシナリオ、検索拡張生成、制限付き生成、推論タスクを最適化
大規模言語モデル
Transformers 複数言語対応

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-TinyはSODAデータセットでトレーニングされた超小型対話モデルで、エッジデバイス推論向けに設計されており、体積はCosmo-3Bモデルの約2%です。
対話システム
Transformers 英語

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
RoBERTaアーキテクチャに基づく中国語抽出型QAモデルで、与えられたテキストから回答を抽出するタスクに適しています。
質問応答システム 中国語
R
uer
2,694
98