LENS-d4000开源文本嵌入模型 - 免费特征提取，高效文本分类

首页

LENS D4000

由 yibinlei 开发

LENS-4000 是一个基于变换器的文本嵌入模型，专注于特征提取和句子相似度计算，在多个文本分类任务中表现出色。

文本嵌入

Transformers

开源协议:Apache-2.0 #高精度文本分类 #亚马逊评论分析 #多任务评估

下载量 19

发布时间 : 12/30/2024

模型简介

该模型主要用于文本嵌入和特征提取，能够高效计算句子相似度，适用于多种自然语言处理任务。

模型特点

高性能文本分类

在多个文本分类任务中表现优异，如亚马逊评论分类准确率达到97.05%。

句子相似度计算

能够高效计算句子间的相似度，适用于信息检索和匹配任务。

多任务支持

支持多种自然语言处理任务，包括分类、检索等。

模型能力

文本嵌入

特征提取

句子相似度计算

文本分类

信息检索

使用案例

电子商务

亚马逊评论分类

对亚马逊商品评论进行情感分类（正面/负面）。

准确率97.05%，F1分数97.05%

反事实评论检测

识别亚马逊平台上的反事实评论。

准确率93.61%，F1分数93.76%

信息检索

论点检索

在辩论数据集中检索相关论点。

NDCG@10得分77.32

🚀 Gouzi3618/LENS-4000

Gouzi3618/LENS-4000 是一个用于文本嵌入、特征提取、句子相似度计算等任务的模型，在多个 MTEB 数据集上进行了测试，展现出了良好的性能。

📚 详细文档

模型信息

属性	详情
模型类型	文本嵌入、特征提取、句子相似度计算等
训练数据	未提及

评估结果

该模型在多个 MTEB 数据集上进行了评估，涵盖分类、检索、聚类、重排序和语义文本相似度等任务。以下是部分评估结果：

分类任务

数据集	准确率	AP	AP 加权	F1	F1 加权	主得分
MTEB AmazonCounterfactualClassification (en)	93.61194029850746	73.89383804438975	73.89383804438975	90.31690759629414	93.75647989786705	93.61194029850746
MTEB AmazonPolarityClassification (default)	97.05455	95.53082050876944	95.53082050876944	97.05405422635297	97.05405422635297	97.05455
MTEB AmazonReviewsClassification (en)	62.834	未提及	未提及	61.45864309016823	61.45864309016823	62.834
MTEB Banking77Classification (default)	90.42532467532467	未提及	未提及	90.26361056658011	90.26361056658011	90.42532467532467

检索任务

数据集	主得分	MAP@1	MAP@10	MAP@100	MAP@1000	...
MTEB ArguAna (default)	77.31700000000001	56.757000000000005	71.136	71.339	71.34	...
MTEB CQADupstackAndroidRetrieval (default)	57.058	37.856	50.468	52.122	52.227999999999994	...

聚类任务

数据集	主得分	V 度量	V 度量标准差
MTEB ArxivClusteringP2P (default)	54.87086052375513	54.87086052375513	14.454097589509681
MTEB ArxivClusteringS2S (default)	50.24788850687535	50.24788850687535	14.477615357158207
MTEB BiorxivClusteringP2P (default)	52.38683432596689	52.38683432596689	1.1038897398800631
MTEB BiorxivClusteringS2S (default)	48.3512116630593	48.3512116630593	0.9899344134435963