Multilingual E5 Large Pooled
模型简介
该模型是一个基于 sentence-transformers 的多语言模型,主要用于句子相似度计算和特征提取,在多种语言的分类、检索和聚类任务中表现良好。
模型特点
多语言支持
支持多种语言处理,包括英文、德文、西班牙文、法文、日文和中文。
多功能任务处理
能够处理多种自然语言处理任务,包括分类、检索、聚类和句子相似度计算。
高性能
在多个标准数据集上表现出色,特别是在亚马逊极性分类任务中达到93.49%的准确率。
模型能力
句子相似度计算
文本特征提取
多语言文本分类
信息检索
文本聚类
双语文本挖掘
使用案例
电子商务
产品评论分类
对亚马逊产品评论进行情感极性分类
在亚马逊极性分类任务中达到93.49%的准确率
多语言评论分析
处理多种语言的用户评论
在英文、德文、西班牙文、法文、日文和中文评论分类任务中表现良好
信息检索
文档检索
用于检索相关文档或段落
在ArguAna检索任务中表现出色
学术研究
论文聚类
对学术论文进行主题聚类
在ArxivClustering任务中v_measure达到44.31%
🚀 多语言e5-large模型
multilingual-e5-large
是一款在多语言任务中表现出色的模型,可用于句子相似度计算、特征提取等多种自然语言处理任务。该模型在多个数据集上进行了测试,展现了优秀的性能。
📚 详细文档
模型标签
- mteb
- Sentence Transformers
- sentence-similarity
- feature-extraction
- sentence-transformers
模型评估结果
分类任务
数据集类型 | 数据集名称 | 配置 | 准确率 | AP | F1 |
---|---|---|---|---|---|
mteb/amazon_counterfactual | MTEB AmazonCounterfactualClassification (en) | en | 79.05970149253731 | 43.486574390835635 | 73.32700092140148 |
mteb/amazon_counterfactual | MTEB AmazonCounterfactualClassification (de) | de | 71.22055674518201 | 81.55756710830498 | 69.28271787752661 |
mteb/amazon_counterfactual | MTEB AmazonCounterfactualClassification (en-ext) | en-ext | 80.41979010494754 | 29.34879922376344 | 67.62475449011278 |
mteb/amazon_counterfactual | MTEB AmazonCounterfactualClassification (ja) | ja | 77.8372591006424 | 26.557560591210738 | 64.96619417368707 |
mteb/amazon_polarity | MTEB AmazonPolarityClassification | default | 93.489875 | 90.98758636917603 | 93.48554819717332 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (en) | en | 47.564 | - | 46.75122173518047 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (de) | de | 45.400000000000006 | - | 44.17195682400632 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (es) | es | 43.068 | - | 42.38155696855596 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (fr) | fr | 41.89 | - | 40.84407321682663 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (ja) | ja | 40.120000000000005 | - | 39.522976223819114 |
mteb/amazon_reviews_multi | MTEB AmazonReviewsClassification (zh) | zh | 38.832 | - | 38.0392533394713 |
mteb/banking77 | MTEB Banking77Classification | default | 84.72727272727273 | - | 84.67672206031433 |
mteb/emotion | MTEB EmotionClassification | default | 46.5 | - | 41.93833713984145 |
mteb/imdb | MTEB ImdbClassification | default | 90.23160000000 | - | - |
检索任务
数据集类型 | 数据集名称 | 配置 | MAP@1 | MAP@10 | MAP@100 | MAP@1000 | MAP@3 | MAP@5 | MRR@1 | MRR@10 | MRR@100 | MRR@1000 | MRR@3 | MRR@5 | NDCG@1 | NDCG@10 | NDCG@100 | NDCG@1000 | NDCG@3 | NDCG@5 | Precision@1 | Precision@10 | Precision@100 | Precision@1000 | Precision@3 | Precision@5 | Recall@1 | Recall@10 | Recall@100 | Recall@1000 | Recall@3 | Recall@5 |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
arguana | MTEB ArguAna | default | 30.725 | 46.055 | 46.900999999999996 | 46.911 | 41.548 | 44.297 | 31.152 | 46.231 | 47.07 | 47.08 | 41.738 | 44.468999999999994 | 30.725 | 54.379999999999995 | 58.138 | 58.389 | 45.156 | 50.123 | 30.725 | 8.087 | 0.9769999999999999 | 0.1 | 18.54 | 13.542000000000002 | 30.725 | 80.868 | 97.653 | 99.57300000000001 | 55.619 | 67.71000000000001 |
BeIR/cqadupstack | MTEB CQADupstackRetrieval | default | 25.558249999999997 | 34.44425000000001 | 35.59833333333333 | 35.706916666666665 | 31.691749999999995 | 33.252916666666664 | 30.252666666666666 | 38.60675 | 39.42666666666666 | 39.48408333333334 | 36.17441666666665 | 37.56275 | 30.252666666666666 | 39.683 | 44.68541666666667 | 46.94316666666668 | 34.961749999999995 | 37.215666666666664 | 30.252666666666666 | 6.904166666666667 | 1.0989999999999995 | 0.14733333333333334 | 16.037666666666667 | 11.413583333333333 | 25.558249999999997 | 51.13341666666666 | 73.08366666666667 | 88.79483333333334 | 37.989083333333326 | 43.787833333333325 |
climate-fever | MTEB ClimateFEVER | default | 10.338 | 18.360000000000003 | 19.942 | 20.134 | 15.174000000000001 | 16.830000000000002 | 23.257 | 33.768 | 34.707 | 34.766000000000005 | 30.977 | 32.528 | 23.257 | 25.733 | 32.288 | 35.992000000000004 | 20.866 | 22.612 | 23.257 | 8.124 | 1.518 | 0.219 | 15.679000000000002 | 12.117 | 10.338 | 31.154 | 54.161 | 75.21900000000001 | 19.427 | 24.214 |
dbpedia-entity | MTEB DBPedia | default | 8.498 | 19.103 | 27.375 | 28.981 | 13.764999999999999 | 15.950000000000001 | 65.5 | 74.53800000000001 | 74.71799999999999 | 74.725 | 72.792 | 73.554 | 53.37499999999999 | 41.286 | 45.972 | 53.123 | 46.172999999999995 | 43.033 | 65.5 | 32.725 | 10.683 | 1.978 | 50 | 41.349999999999994 | 8.498 | 25.070999999999998 | 52.383 | 74.91499999999999 | 15.207999999999998 | 18.563 |
fever | MTEB FEVER | default | 67.914 | 78.10000000000001 | 78.333 | 78.346 | 76.626 | 77.627 | 72.74199999999999 | 82.414 | 82.511 | 82.513 | 81.231 | 82.065 | 72.74199999999999 | 82.806 | 83.677 | 83.917 | 80.305 | 81.843 | 72.74199999999999 | 10.24 | 1.089 | 0.11299999999999999 | 31.268 | 19.706000000000003 | 67.914 | 92.889 | 96.42699999999999 | 97.92 | 86.21 | 90.036 |
fiqa | MTEB FiQA2018 | default | 22.166 | 35.57 | 37.405 | 37.564 | 30.379 | 33.324 | 43.519000000000005 | 51.556000000000004 | 52.344 | 52.373999999999995 | 48.868 | 50.319 | 43.519000000000005 | 43.803 | 50.468999999999994 | 53.111 | 38.893 | 40.653 | 43.519000000000005 | 12.253 | 1.931 | 0.242 | 25.617 | 19.383 | 22.166 | 51.6 | 76.574 | 92.192 | 34.477999999999994 | 41.835 |
hotpotqa | MTEB HotpotQA | default | 39.041 | 62.961999999999996 | 63.79899999999999 | 63.854 | 59.399 | 61.669 | 78.082 | 84.321 | 84.49600000000001 | 84.502 | 83.421 | 83.977 | 78.082 | 71.229 | 74.10900000000001 | 75.169 | 66.28699999999999 | 69.084 | 78.082 | 14.993 | 1.7239999999999998 | 0.186 | 42.737 | 27.843 | 39.041 | 74.96300000000001 | 86.199 | 93.228 | 64.105 | 69.608 |
聚类任务
数据集类型 | 数据集名称 | 配置 | V-Measure |
---|---|---|---|
mteb/arxiv-clustering-p2p | MTEB ArxivClusteringP2P | default | 44.30960650674069 |
mteb/arxiv-clustering-s2s | MTEB ArxivClusteringS2S | default | 38.427074197498996 |
mteb/biorxiv-clustering-p2p | MTEB BiorxivClusteringP2P | default | 35.34220182511161 |
mteb/biorxiv-clustering-s2s | MTEB BiorxivClusteringS2S | default | 33.4987096128766 |
重排序任务
数据集类型 | 数据集名称 | 配置 | MAP | MRR |
---|---|---|---|---|
mteb/askubuntudupquestions-reranking | MTEB AskUbuntuDupQuestions | default | 60.28270056031872 | 74.38332673789738 |
语义文本相似度任务
数据集类型 | 数据集名称 | 配置 | 余弦相似度皮尔逊相关系数 | 余弦相似度斯皮尔曼相关系数 | 欧几里得距离皮尔逊相关系数 | 欧几里得距离斯皮尔曼相关系数 | 曼哈顿距离皮尔逊相关系数 | 曼哈顿距离斯皮尔曼相关系数 |
---|---|---|---|---|---|---|---|---|
mteb/biosses-sts | MTEB BIOSSES | default | 84.05942144105269 | 82.51212105850809 | 81.95639829909122 | 82.3717564144213 | 81.79273425468256 | 82.20066817871039 |
双语挖掘任务
数据集类型 | 数据集名称 | 配置 | 准确率 | F1 | 精确率 | 召回率 |
---|---|---|---|---|---|---|
mteb/bucc-bitext-mining | MTEB BUCC (de-en) | de-en | 99.46764091858039 | 99.37717466945023 | 99.33194154488518 | 99.46764091858039 |
mteb/bucc-bitext-mining | MTEB BUCC (fr-en) | fr-en | 98.29407880255337 | 98.11248073959938 | 98.02443319392472 | 98.29407880255337 |
mteb/bucc-bitext-mining | MTEB BUCC (ru-en) | ru-en | 97.79009352268791 | 97.5176076665512 | 97.38136473848286 | 97.79009352268791 |
mteb/bucc-bitext-mining | MTEB BUCC (zh-en) | zh-en | 99.26276987888363 | 99.20133403545726 | 99.17500438827453 | 99.26276987888363 |
Jina Embeddings V3
Jina Embeddings V3 是一个多语言句子嵌入模型,支持超过100种语言,专注于句子相似度和特征提取任务。
文本嵌入
Transformers 支持多种语言

J
jinaai
3.7M
911
Ms Marco MiniLM L6 V2
Apache-2.0
基于MS Marco段落排序任务训练的交叉编码器模型,用于信息检索中的查询-段落相关性评分
文本嵌入 英语
M
cross-encoder
2.5M
86
Opensearch Neural Sparse Encoding Doc V2 Distill
Apache-2.0
基于蒸馏技术的稀疏检索模型,专为OpenSearch优化,支持免推理文档编码,在搜索相关性和效率上优于V1版本
文本嵌入
Transformers 英语

O
opensearch-project
1.8M
7
Sapbert From PubMedBERT Fulltext
Apache-2.0
基于PubMedBERT的生物医学实体表征模型,通过自对齐预训练优化语义关系捕捉
文本嵌入 英语
S
cambridgeltl
1.7M
49
Gte Large
MIT
GTE-Large 是一个强大的句子转换器模型,专注于句子相似度和文本嵌入任务,在多个基准测试中表现出色。
文本嵌入 英语
G
thenlper
1.5M
278
Gte Base En V1.5
Apache-2.0
GTE-base-en-v1.5 是一个英文句子转换器模型,专注于句子相似度任务,在多个文本嵌入基准测试中表现优异。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.5M
63
Gte Multilingual Base
Apache-2.0
GTE Multilingual Base 是一个多语言的句子嵌入模型,支持超过50种语言,适用于句子相似度计算等任务。
文本嵌入
Transformers 支持多种语言

G
Alibaba-NLP
1.2M
246
Polybert
polyBERT是一个化学语言模型,旨在实现完全由机器驱动的超快聚合物信息学。它将PSMILES字符串映射为600维密集指纹,以数值形式表示聚合物化学结构。
文本嵌入
Transformers

P
kuelumbus
1.0M
5
Bert Base Turkish Cased Mean Nli Stsb Tr
Apache-2.0
基于土耳其语BERT的句子嵌入模型,专为语义相似度任务优化
文本嵌入
Transformers 其他

B
emrecan
1.0M
40
GIST Small Embedding V0
MIT
基于BAAI/bge-small-en-v1.5模型微调的文本嵌入模型,通过MEDI数据集与MTEB分类任务数据集训练,优化了检索任务的查询编码能力。
文本嵌入
Safetensors 英语
G
avsolatorio
945.68k
29
精选推荐AI模型
Llama 3 Typhoon V1.5x 8b Instruct
专为泰语设计的80亿参数指令模型,性能媲美GPT-3.5-turbo,优化了应用场景、检索增强生成、受限生成和推理任务
大型语言模型
Transformers 支持多种语言

L
scb10x
3,269
16
Cadet Tiny
Openrail
Cadet-Tiny是一个基于SODA数据集训练的超小型对话模型,专为边缘设备推理设计,体积仅为Cosmo-3B模型的2%左右。
对话系统
Transformers 英语

C
ToddGoldfarb
2,691
6
Roberta Base Chinese Extractive Qa
基于RoBERTa架构的中文抽取式问答模型,适用于从给定文本中提取答案的任务。
问答系统 中文
R
uer
2,694
98