Sbert Chinese General V1
S
Sbert Chinese General V1
由 DMetaSoul 开发
一个通用的中文句子嵌入模型,用于计算句子相似度和语义搜索任务。
下载量 388
发布时间 : 3/25/2022
模型简介
该模型是一个基于变换器的中文句子嵌入模型,主要用于句子相似度计算、特征提取和语义搜索等任务。
模型特点
中文优化
专门针对中文文本进行了优化,能够更好地处理中文语义。
多任务支持
支持多种自然语言处理任务,包括句子相似度计算、语义搜索和文本分类等。
高效特征提取
能够快速高效地从文本中提取有意义的语义特征。
模型能力
句子相似度计算
语义搜索
特征提取
文本分类
聚类分析
重排序
双语文本挖掘
使用案例
信息检索
电商产品搜索
用于电商平台的语义产品搜索,提高搜索结果的相关性。
在电商检索任务中表现良好
医疗信息检索
帮助用户查找相关的医疗信息和文档。
在医疗检索任务中取得一定效果
文本分析
评论情感分析
分析用户评论的情感倾向。
在京东评论分类任务中准确率达82.2%
意图识别
识别用户文本中的意图。
在大规模意图分类任务中准确率达57.3%
跨语言应用
中英双语文本挖掘
用于中英双语文本的对齐和挖掘。
在BUCC双语文本挖掘任务中表现
🚀 sbert-chinese-general-v1
sbert-chinese-general-v1
是一个用于句子相似度计算的模型,支持特征提取、语义搜索等任务,在多个中文数据集上进行了评估,展现出了一定的性能表现。
📚 详细文档
模型信息
属性 | 详情 |
---|---|
模型类型 | 句子相似度模型 |
支持任务 | 特征提取、句子相似度计算、语义搜索等 |
适用语言 | 中文 |
评估结果
以下是该模型在不同数据集上的评估结果:
1. STS 任务
- C-MTEB/AFQMC(验证集)
指标 值 cos_sim_pearson 22.293919432958074 cos_sim_spearman 22.56718923553609 euclidean_pearson 22.525656322797026 euclidean_spearman 22.56718923553609 manhattan_pearson 22.501773028824065 manhattan_spearman 22.536992587828397 - C-MTEB/ATEC(测试集)
指标 值 cos_sim_pearson 30.33575274463879 cos_sim_spearman 30.298708742167772 euclidean_pearson 32.33094743729218 euclidean_spearman 30.298710993858734 manhattan_pearson 32.31155376195945 manhattan_spearman 30.267669681690744 - C-MTEB/BQ(测试集)
指标 值 cos_sim_pearson 41.493256724214255 cos_sim_spearman 40.98395961967895 euclidean_pearson 41.12345737966565 euclidean_spearman 40.983959619555996 manhattan_pearson 41.02584539471014 manhattan_spearman 40.87549513383032 - C-MTEB/LCQMC(测试集)
指标 值 cos_sim_pearson 62.84331627244547 cos_sim_spearman 68.39990265073726 euclidean_pearson 66.87431827169324 euclidean_spearman 68.39990264979167 manhattan_pearson 66.89702078900328 manhattan_spearman 68.42107302159141 - C-MTEB/PAWSX(测试集)
指标 值 cos_sim_pearson 13.70522140998517 cos_sim_spearman 15.07546667334743 euclidean_pearson 17.49511420225285 euclidean_spearman 15.093970931789618 manhattan_pearson 17.44069961390521 manhattan_spearman 15.076029291596962 - C-MTEB/QBQTC(测试集)
指标 值 cos_sim_pearson 26.835294224547155 cos_sim_spearman 27.920204597498856 euclidean_pearson 26.153796707702803 euclidean_spearman 27.920971379720548 manhattan_pearson 26.21954147857523 manhattan_spearman 27.996860049937478
2. 分类任务
- mteb/amazon_reviews_multi(测试集,zh)
指标 值 accuracy 37.507999999999996 f1 36.436808400753286 - C-MTEB/IFlyTek-classification(验证集)
指标 值 accuracy 44.878799538283964 f1 33.84678310261366 - C-MTEB/JDReview-classification(测试集)
指标 值 accuracy 82.1951219512195 ap 46.78292030042397 f1 76.20482468514128 - mteb/amazon_massive_intent(测试集,zh-CN)
指标 值 accuracy 57.343644922663074 f1 56.744802953803486 - mteb/amazon_massive_scenario(测试集,zh-CN)
指标 值 accuracy 62.363819771351714 f1 62.15920863434656 - C-MTEB/MultilingualSentiment-classification(验证集)
指标 值 accuracy 66.58333333333333 f1 66.26700927460007 - C-MTEB/OnlineShopping-classification(测试集)
指标 值 accuracy 88.19000000000001 ap 85.13415594781077 f1 88.17344156114062
3. 重排序任务
- C-MTEB/CMedQAv1-reranking(测试集)
指标 值 map 53.06586280826805 mrr 59.58781746031746 - C-MTEB/CMedQAv2-reranking(测试集)
指标 值 map 52.83635946154306 mrr 59.315079365079356 - C-MTEB/Mmarco-reranking(开发集)
指标 值 map 9.28600891904827 mrr 8.057936507936509
4. 检索任务
- C-MTEB/CmedqaRetrieval(开发集)
指标 值 map_at_1 5.721 map_at_10 8.645 map_at_100 9.434 map_at_1000 9.586 map_at_3 7.413 map_at_5 8.05 mrr_at_1 9.626999999999999 mrr_at_10 13.094 mrr_at_100 13.854 mrr_at_1000 13.958 mrr_at_3 11.724 mrr_at_5 12.409 ndcg_at_1 9.626999999999999 ndcg_at_10 11.35 ndcg_at_100 15.593000000000002 ndcg_at_1000 19.619 ndcg_at_3 9.317 ndcg_at_5 10.049 precision_at_1 9.626999999999999 precision_at_10 2.796 precision_at_100 0.629 precision_at_1000 0.11800000000000001 precision_at_3 5.476 precision_at_5 4.1209999999999996 recall_at_1 5.721 recall_at_10 15.190000000000001 recall_at_100 33.633 recall_at_1000 62.019999999999996 recall_at_3 9.099 recall_at_5 11.423 - C-MTEB/CovidRetrieval(开发集)
指标 值 map_at_1 26.976 map_at_10 35.18 map_at_100 35.921 map_at_1000 35.998999999999995 map_at_3 32.763 map_at_5 34.165 mrr_at_1 26.976 mrr_at_10 35.234 mrr_at_100 35.939 mrr_at_1000 36.016 mrr_at_3 32.771 mrr_at_5 34.172999999999995 ndcg_at_1 26.976 ndcg_at_10 39.635 ndcg_at_100 43.54 ndcg_at_1000 45.723 ndcg_at_3 34.652 ndcg_at_5 37.186 precision_at_1 26.976 precision_at_10 5.406 precision_at_100 0.736 precision_at_1000 0.091 precision_at_3 13.418 precision_at_5 9.293999999999999 recall_at_1 26.976 recall_at_10 53.766999999999996 recall_at_100 72.761 recall_at_1000 90.148 recall_at_3 40.095 recall_at_5 46.233000000000004 - C-MTEB/DuRetrieval(开发集)
指标 值 map_at_1 11.285 map_at_10 30.259000000000004 map_at_100 33.772000000000006 map_at_1000 34.037 map_at_3 21.038999999999998 map_at_5 25.939 mrr_at_1 45.1 mrr_at_10 55.803999999999995 mrr_at_100 56.301 mrr_at_1000 56.330999999999996 mrr_at_3 53.333 mrr_at_5 54.798 ndcg_at_1 45.1 ndcg_at_10 41.156 ndcg_at_100 49.518 ndcg_at_1000 52.947 ndcg_at_3 39.708 ndcg_at_5 38.704 precision_at_1 45.1 precision_at_10 20.75 precision_at_100 3.424 precision_at_1000 0.42700000000000005 precision_at_3 35.632999999999996 precision_at_5 30.080000000000002 recall_at_1 11.285 recall_at_10 43.242000000000004 recall_at_100 68.604 recall_at_1000 85.904 recall_at_3 24.404 recall_at_5 32.757 - C-MTEB/EcomRetrieval(开发集)
指标 值 map_at_1 21 map_at_10 28.364 map_at_100 29.199 map_at_1000 29.265 map_at_3 25.717000000000002 map_at_5 27.311999999999998 mrr_at_1 21 mrr_at_10 28.364 mrr_at_100 29.199 mrr_at_1000 29.265 mrr_at_3 25.717000000000002 mrr_at_5 27.311999999999998 ndcg_at_1 21 ndcg_at_10 32.708 ndcg_at_100 37.184 ndcg_at_1000 39.273 ndcg_at_3 27.372000000000003 ndcg_at_5 30.23 precision_at_1 21 precision_at_10 4.66 precision_at_100 0.685 precision_at_1000 0.086 precision_at_3 10.732999999999999 precision_at_5 7.82 recall_at_1 21 recall_at_10 46.6 recall_at_100 68.5 recall_at_1000 85.6 recall_at_3 32.2 recall_at_5 39.1 - C-MTEB/MMarcoRetrieval(开发集)
指标 值 map_at_1 22.820999999999998 map_at_10 30.44 map_at_100 31.35 map_at_1000 31.419000000000004 map_at_3 28.134999999999998 map_at_5 29.482000000000003 mrr_at_1 23.782 mrr_at_10 31.141999999999996 mrr_at_100 32.004 mrr_at_1000 32.068000000000005 mrr_at_3 28.904000000000003 mrr_at_5 30.214999999999996 ndcg_at_1 23.782 ndcg_at_10 34.625 ndcg_at_100 39.226 ndcg_at_1000 41.128 ndcg_at_3 29.968 ndcg_at_5 32.35 precision_at_1 23.782 precision_at_10 4.994 precision_at_100 0.736 precision_at_1000 0.09 precision_at_3 12.13 precision_at_5 8.495999999999999 recall_at_1 22.820999999999998 recall_at_10 47.141 recall_at_100 68.952 recall_at_1000 83.985 recall_at_3 34.508 recall_at_5 40.232 - C-MTEB/MedicalRetrieval(开发集)
指标 值 map_at_1 14.6 map_at_10 18.231 map_at_100 18.744 map_at_1000 18.811 map_at_3 17.133000000000003 map_at_5 17.663 mrr_at_1 14.6 mrr_at_10 18.231 mrr_at_100 18.744 mrr_at_1000 18.811 mrr_at_3 17.133000000000003 mrr_at_5 17.663 ndcg_at_1 14.6 ndcg_at_10 20.349 ndcg_at_100 23.204 ndcg_at_1000 25.44 ndcg_at_3 17.995 ndcg_at_5 18.945999999999998 precision_at_1 14.6 precision_at_10 2.7199999999999998 precision_at_100 0.414 precision_at_1000 0.06 precision_at_3 6.833 precision_at_5 4.5600000000000005 recall_at_1 14.6 recall_at_10 27.200000000000003 recall_at_100 41.4 recall_at_1000 60 recall_at_3 20.5 recall_at_5 22.8
5. 成对分类任务
- C-MTEB/CMNLI(验证集)
指标 值 cos_sim_accuracy 77.36620565243535 cos_sim_ap 85.92291866877001 cos_sim_f1 78.19390231037029 cos_sim_precision 71.24183006535948 cos_sim_recall 86.64952069207388 dot_accuracy 77.36620565243535 dot_ap 85.94113738490068 dot_f1 78.19390231037029 dot_precision 71.24183006535948 dot_recall 86.64952069207388 euclidean_accuracy 77.36620565243535 euclidean_ap 85.92291893444687 euclidean_f1 78.19390231037029 euclidean_precision 71.24183006535948 euclidean_recall 86.64952069207388 manhattan_accuracy 77.29404690318701 manhattan_ap 85.88284362100919 manhattan_f1 78.17836812144213 manhattan_precision 71.18448838548666 manhattan_recall 86.69628244096329 max_accuracy 77.36620565243535 max_ap 85.94113738490068 max_f1 78.19390231037029 - C-MTEB/OCNLI(验证集)
指标 值 cos_sim_accuracy 72.00866269626421 cos_sim_ap 77.00520104243304 cos_sim_f1 74.39303710490151 cos_sim_precision 65.69579288025889 cos_sim_recall 85.74445617740233 dot_accuracy 72.00866269626421 dot_ap 77.00520104243304 dot_f1 74.39303710490151 dot_precision 65.69579288025889 dot_recall 85.74445617740233 euclidean_accuracy 72.00866269626421 euclidean_ap 77.00520104243304 euclidean_f1 74.39303710490151 euclidean_precision 65.69579288025889 euclidean_recall 85.74445617740233 manhattan_accuracy 72.1710882512182 manhattan_ap 77.00551017913976 manhattan_f1 74.23423423423424 manhattan_precision 64.72898664571878 manhattan_recall 87.0116156282999 max_accuracy 72.1710882512182 max_ap 77.00551017913976 max_f1 74.39303710490151
6. 聚类任务
- C-MTEB/CLSClusteringP2P(测试集)
指标 值 v_measure 34.984726547788284 - C-MTEB/CLSClusteringS2S(测试集)
指标 值 v_measure 27.81945732281589
7. 双语挖掘任务
- mteb/bucc-bitext-mining(测试集,zh-en)
指标 值 accuracy 9.794628751974724 f1 9.350535369492716 precision 9.179392662804986 recall 9.794628751974724
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98