🚀 Gouzi3618/LENS-4000
Gouzi3618/LENS-4000 是一个用于文本嵌入、特征提取、句子相似度计算等任务的模型,在多个 MTEB 数据集上进行了测试,展现出了良好的性能。
📚 详细文档
模型信息
属性 |
详情 |
模型类型 |
文本嵌入、特征提取、句子相似度计算等 |
训练数据 |
未提及 |
评估结果
该模型在多个 MTEB 数据集上进行了评估,涵盖分类、检索、聚类、重排序和语义文本相似度等任务。以下是部分评估结果:
分类任务
数据集 |
准确率 |
AP |
AP 加权 |
F1 |
F1 加权 |
主得分 |
MTEB AmazonCounterfactualClassification (en) |
93.61194029850746 |
73.89383804438975 |
73.89383804438975 |
90.31690759629414 |
93.75647989786705 |
93.61194029850746 |
MTEB AmazonPolarityClassification (default) |
97.05455 |
95.53082050876944 |
95.53082050876944 |
97.05405422635297 |
97.05405422635297 |
97.05455 |
MTEB AmazonReviewsClassification (en) |
62.834 |
未提及 |
未提及 |
61.45864309016823 |
61.45864309016823 |
62.834 |
MTEB Banking77Classification (default) |
90.42532467532467 |
未提及 |
未提及 |
90.26361056658011 |
90.26361056658011 |
90.42532467532467 |
检索任务
数据集 |
主得分 |
MAP@1 |
MAP@10 |
MAP@100 |
MAP@1000 |
... |
MTEB ArguAna (default) |
77.31700000000001 |
56.757000000000005 |
71.136 |
71.339 |
71.34 |
... |
MTEB CQADupstackAndroidRetrieval (default) |
57.058 |
37.856 |
50.468 |
52.122 |
52.227999999999994 |
... |
聚类任务
数据集 |
主得分 |
V 度量 |
V 度量标准差 |
MTEB ArxivClusteringP2P (default) |
54.87086052375513 |
54.87086052375513 |
14.454097589509681 |
MTEB ArxivClusteringS2S (default) |
50.24788850687535 |
50.24788850687535 |
14.477615357158207 |
MTEB BiorxivClusteringP2P (default) |
52.38683432596689 |
52.38683432596689 |
1.1038897398800631 |
MTEB BiorxivClusteringS2S (default) |
48.3512116630593 |
48.3512116630593 |
0.9899344134435963 |
重排序任务
数据集 |
主得分 |
MAP |
MRR |
nAUC_MAP 差异 1 |
nAUC_MAP 最大值 |
... |
MTEB AskUbuntuDupQuestions (default) |
65.44621361559305 |
65.44621361559305 |
78.08380600624368 |
19.65299058945553 |
23.879426571566693 |
... |
语义文本相似度任务
数据集 |
余弦皮尔逊系数 |
余弦斯皮尔曼系数 |
欧几里得皮尔逊系数 |
欧几里得斯皮尔曼系数 |
主得分 |
... |
MTEB BIOSSES (default) |
85.46985769611739 |
84.47120184207104 |
83.12042031068798 |
84.47120184207104 |
84.47120184207104 |
... |
📄 许可证
本模型使用 Apache-2.0 许可证。