GIST-all-MiniLM-L6-v2开源模型 - 处理句间相似度，适用多类NLP场景

首页

GIST All MiniLM L6 V2

由 avsolatorio 开发

GIST-all-MiniLM-L6-v2是一个专注于句子相似度任务的Sentence-Transformers模型，适用于特征提取、分类、检索和聚类等多种自然语言处理场景。

文本嵌入英语开源协议:MIT #句子相似度计算 #多任务性能均衡 #文本检索优化

下载量 99.17k

发布时间 : 2/3/2024

模型简介

该模型基于MiniLM架构，经过优化以处理句子级别的相似度计算，支持多种下游任务如文本分类、信息检索和聚类分析。

模型特点

高效句子嵌入

能够快速生成高质量的句子嵌入，适用于大规模文本处理。

多任务适配

经过优化可适配多种下游任务，包括分类、检索和聚类。

轻量级架构

基于MiniLM架构，在保持性能的同时减少计算资源需求。

模型能力

句子相似度计算

文本特征提取

文本分类

信息检索

文本聚类

语义文本相似度分析

使用案例

电子商务

产品评论分类

对亚马逊产品评论进行情感极性分类

在AmazonPolarityClassification数据集上达到87.19%准确率

反事实评论检测

识别亚马逊平台上的反事实评论

在AmazonCounterfactualClassification数据集上达到72.89%准确率

金融

银行客服问题分类

对银行客户服务问题进行自动分类

在Banking77Classification数据集上达到84.24%准确率

学术研究

学术论文聚类

对arXiv和bioRxiv论文进行主题聚类

在ArxivClusteringP2P数据集上达到45.31 V-measure

🚀 Sentence-Transformers：GIST-all-MiniLM-L6-v2模型

Sentence-Transformers库中的GIST-all-MiniLM-L6-v2模型，专注于句子相似度任务，可用于特征提取等多种自然语言处理场景。该模型在多个数据集上进行了测试，展现出了在分类、检索、聚类等任务中的性能表现。

📚 详细文档

模型信息

属性	详情
模型类型	句子相似度模型
训练数据	未提及

任务结果

分类任务

数据集	准确率	AP	F1
MTEB AmazonCounterfactualClassification (en)	72.8955223880597	35.447605103320775	66.82951715365854
MTEB AmazonPolarityClassification	87.19474999999998	83.09577890808514	87.13833121762009
MTEB AmazonReviewsClassification (en)	42.556000000000004	未提及	42.236256693772276
MTEB Banking77Classification	84.2435064935065	未提及	84.2334859253828

检索任务

以MTEB ArguAna数据集为例，部分指标如下：

指标	值
map_at_1	26.884999999999998
map_at_10	42.364000000000004
map_at_100	43.382
mrr_at_1	26.884999999999998
mrr_at_10	42.193999999999996
ndcg_at_1	26.884999999999998
ndcg_at_10	51.254999999999995
precision_at_1	26.884999999999998
precision_at_10	7.9799999999999995
recall_at_1	26.884999999999998
recall_at_10	79.801

其他BeIR/cqadupstack相关数据集的检索任务也有类似的指标记录，如MTEB CQADupstackAndroidRetrieval、MTEB CQADupstackEnglishRetrieval等。

聚类任务

数据集	V-measure
MTEB ArxivClusteringP2P	45.31044837358167
MTEB ArxivClusteringS2S	35.44751738734691
MTEB BiorxivClusteringP2P	38.38358435972693
MTEB BiorxivClusteringS2S	31.093619653843124